HDU 4326 Game 概率DP 高斯消元

题目大意:

就是现在有N个人标号从1到N排队, 每次队首的4个人开始游戏, 4个人中每个人胜利的可能性是相等的, 现在胜利的人会留在队首, 继续游戏, 输的人会回到队尾(回到队尾的顺序与进入游戏idea顺序一致, 比如说1,2,3,4比赛, 2获胜, 则2留在队首, 1,3,4在队尾的顺序依旧是1,3,4(4在最后)现在如果某个人连续赢了M局游戏, 那个人就是最终得获胜者, 问长度为N的队伍当中, 初始位置在第K个的人获胜的概率 (K <= N <= 10, M <= 10)


大致思路:

首先很明显的是队伍长度不变, 且胜率和当前队首的人已经连续赢了多少把有关, 那么用dp[i][j]表示当队首的人已经连续赢了i次时, 在队列第j个位置的人获胜的概率

那么久很容易找到状态转移方程, 这样得到一个最多110个未知数的方程组, 用Gauss消元求解即可

具体状态转移方程见代码注释部分


代码如下:

Result  :  Accepted     Memory  :  1264 KB     Time  :  0 ms

/*
 * Author: Gatevin
 * Created Time:  2014/12/26 20:27:35
 * File Name: Sora_Kasugano.cpp
 */
#include<iostream>
#include<sstream>
#include<fstream>
#include<vector>
#include<list>
#include<deque>
#include<queue>
#include<stack>
#include<map>
#include<set>
#include<bitset>
#include<algorithm>
#include<cstdio>
#include<cstdlib>
#include<cstring>
#include<cctype>
#include<cmath>
#include<ctime>
#include<iomanip>
using namespace std;
const double eps(1e-8);
typedef long long lint;

double a[110][110];//矩阵
double x[110];//解
int equ, var;//方程个数, 变量个数

/*
 * 用dp[i][j]表示当前队首的玩家连续赢了i局时, 站在队列第j个位置的人获胜的概率
 * 那么首先有dp[M][1] = 1, dp[M][2~N] = 0;
 * 当i < M时
 * 对于j > 4 dp[i][j] = dp[i + 1][j - 3]*0.25 + dp[1][j - 3]*0.75;
 * 对于j == 4 dp[i][j] = dp[i + 1][N]*0.25 + dp[1][N]*0.5 + dp[1][1]*0.25;
 * 对于j == 3 dp[i][j] = dp[i + 1][N - 1]*0.25 + dp[1][N - 1]*0.25 + dp[1][1]*0.25 + dp[1][N]*0.25;
 * 对于j == 2 dp[i][j] = dp[i + 1][N - 2]*0.25 + dp[1][1]*0.25 + dp[1][N - 1]*0.5;
 * 对于j == 1 dp[i][j] = dp[i + 1][1]*0.25 + dp[1][N - 2]*0.75;
 * 那么dp[0][K]即为最终的解
 */

int Gauss()
{
    for(int row = 0, col = 0; row < equ && col < var; row++, col++)
    {
        int max_r = row;
        for(int i = row + 1; i < equ; i++)
            if(fabs(a[i][col]) > fabs(a[max_r][col]))
                max_r = i;
        if(fabs(a[max_r][col]) < eps) return 0;
        if(max_r != row)
        {
            for(int i = col; i < var; i++) swap(a[max_r][i], a[row][i]);
            swap(x[max_r], x[row]);
        }
        for(int i = col + 1; i < var; i++) a[row][i] /= a[row][col];
        x[row] /= a[row][col];
        a[row][col] = 1;
        for(int i = 0; i < equ; i++)
            if(i != row)
            {
                for(int j = col + 1; j < var; j++) a[i][j] -= a[i][col]*a[row][j];
                x[i] -= x[row]*a[i][col];
                a[i][col] = 0;
            }
    }
    return 1;
}

int N, M, K;
int hash[11][11];//将dp[i][j]映射为第hash[i][j]个变量, 解存储在x[hash[i][j]]中

void check(int tx, int ty)
{
    if(hash[tx][ty] == -1)
        hash[tx][ty] = var++;
    return;
}

int main()
{
    int t;
    scanf("%d", &t);
    for(int cas = 1; cas <= t; cas++)
    {
        scanf("%d %d %d", &N, &M, &K);
        memset(hash, -1, sizeof(hash));
        memset(a, 0, sizeof(a));
        equ = 0;
        var = 0;
        for(int i = 0; i <= M; i++)
            for(int j = 1; j <= N; j++)
            {
                check(i, j);
                a[equ][hash[i][j]] = 1;
                if(j > 4)
                {
                    if(i != M)
                    {
                        check(i + 1, j - 3); check(1, j - 3);
                        a[equ][hash[i + 1][j - 3]] += -0.25;
                        a[equ][hash[1][j - 3]] += -0.75;
                        x[equ] = 0;
                    }
                    else
                        x[equ] = 0;
                }
                else if(j == 4)
                {
                    if(i != M)
                    {
                        check(i + 1, N); check(1, N); check(1, 1);
                        a[equ][hash[i + 1][N]] += -0.25;
                        a[equ][hash[1][N]] += -0.5;
                        a[equ][hash[1][1]] += -0.25;
                        x[equ] = 0;
                    }
                    else
                        x[equ] = 0;
                }
                else if(j == 3)
                {
                    if(i != M)
                    {
                        check(1, 1); check(i + 1, N - 1); check(1, N); check(1, N - 1);
                        a[equ][hash[1][1]] += -0.25;
                        a[equ][hash[i + 1][N - 1]] += -0.25;
                        a[equ][hash[1][N]] += -0.25;
                        a[equ][hash[1][N - 1]] += -0.25;
                        x[equ] = 0;
                    }
                    else
                        x[equ] = 0;
                }
                else if(j == 2)
                {
                    if(i != M)
                    {
                        check(i + 1, N - 2); check(1, 1); check(1, N - 1);
                        a[equ][hash[i + 1][N - 2]] += -0.25;
                        a[equ][hash[1][1]] += -0.25;
                        a[equ][hash[1][N - 1]] += -0.5;
                        x[equ] = 0;
                    }
                    else
                        x[equ] = 0;
                        
                }
                else if(j == 1)
                {
                    if(i != M)
                    {
                        check(i + 1, 1); check(1, N - 2);
                        a[equ][hash[i + 1][1]] += -0.25;
                        a[equ][hash[1][N - 2]] += -0.75;
                        x[equ] = 0;
                    }
                    else
                        x[equ] = 1;
                }
                equ++;
            }
        Gauss();
        printf("Case #%d: %.6f\n", cas, x[hash[0][K]]);
    }
    return 0;
}


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: hdu 2829 Lawrence 斜率优化dp 这道题是一道经典的斜率优化dp题目,需要用到单调队列的思想。 题目大意是给定一个序列a,求出一个序列b,使得b[i]表示a[1]~a[i]中的最小值,且满足b[i] = min{b[j] + (i-j)*k},其中k为给定的常数。 我们可以将上式拆开,得到b[i] = min{b[j] - j*k} + i*k,即b[i] = i*k + min{b[j] - j*k},这个式子就是斜率优化dp的形式。 我们可以用单调队列来维护min{b[j] - j*k},具体思路如下: 1. 首先将第一个元素加入队列中。 2. 从第二个元素开始,我们需要将当前元素加入队列中,并且需要维护队列的单调性。 3. 维护单调性的方法是,我们从队列的末尾开始,将队列中所有大于当前元素的元素弹出,直到队列为空或者队列中最后一个元素小于当前元素为止。 4. 弹出元素的同时,我们需要计算它们对应的斜率,即(b[j]-j*k)/(j-i),并将这些斜率与当前元素的斜率比较,如果当前元素的斜率更小,则将当前元素加入队列中。 5. 最后队列中的第一个元素就是min{b[j] - j*k},我们将它加上i*k就得到了b[i]的值。 6. 重复以上步骤直到处理完所有元素。 具体实现可以参考下面的代码: ### 回答2: HDU 2829 Lawrence 斜率优化 DP 是一道经典的斜率优化 DP 题目,其思想是通过维护一个下凸包来优化 DP 算法。下面我们来具体分析一下这道题目。 首先,让我们看一下该题目的描述。题目给定一些木棒,要求我们将这些木棒割成一些给定长度,且要求每种长度的木棒的数量都是一样的,求最小的割枝次数。这是一个典型的背包问题,而且在此基础上还要求每种长度的木棒的数量相同,这就需要我们在状态设计上走一些弯路。 我们来看一下状态的定义。定义 $dp[i][j]$ 表示前 $i$ 个木棒中正好能割出 $j$ 根长度为 $c_i$ 的木棒的最小割枝次数。对于每个 $dp[i][j]$,我们可以分类讨论: 1. 不选当前的木棒,即 $dp[i][j]=dp[i-1][j]$; 2. 选当前的木棒,即 $dp[i][j-k]=dp[i-1][j-k]+k$,其中 $k$ 是 $j/c_i$ 的整数部分。 现在问题再次转化为我们需要在满足等量限制的情况下,求最小的割枝次数。可以看出,这是一个依赖于 $c_i$ 的限制。于是,我们可以通过斜率优化 DP 来解决这个问题。 我们来具体分析一下斜率优化 DP 算法的思路。我们首先来看一下动态规划的状态转移方程 $dp[i][j]=\min\{dp[i-1][k]+x_k(i,j)\}$。可以发现,$dp[i][j]$ 的最小值只与 $dp[i-1][k]$ 和 $x_k(i,j)$ 有关。其中,$x_k(i,j)$ 表示斜率,其值为 $dp[i-1][k]-k\times c_i+j\times c_i$。 接下来,我们需要维护一个下凸包,并通过斜率进行优化。我们具体分析一下该过程。假设我们当前要计算 $dp[i][j]$。首先,我们需要找到当前点 $(i,j)$ 在凸包上的位置,即斜率最小值的位置。然后,我们根据该位置的斜率计算 $dp[i][j]$ 的值。接下来,我们需要将当前点 $(i,j)$ 加入到下凸包上。 我们在加入点的时候需要注意几点。首先,我们需要将凸包中所有斜率比当前点小的点移除,直到该点能够加入到凸包中为止。其次,我们需要判断该点是否能够加入到凸包中。如果不能加入到凸包中,则直接舍弃。最后,我们需要保证凸包中斜率是单调递增的,这就需要在加入新的点之后进行上一步操作。 以上就是该题目的解题思路。需要注意的是,斜率优化 DP 算法并不是万能的,其使用情况需要根据具体的问题情况来确定。同时,该算法中需要维护一个下凸包,可能会增加一些算法的复杂度,建议和常规 DP 算法进行对比,选择最优的算法进行解题。 ### 回答3: 斜率优化DP是一种动态规划优化算法,其主要思路是通过对状态转移方程进行变形,提算法的时间复杂度。HDU2829 Lawrence问题可以用斜率优化DP解决。 首先,我们需要了解原问题的含义。问题描述如下:有$n$个人在数轴上,第$i$个人的位置为$A_i$,每个人可以携带一定大小的行李,第$i$个人的行李重量为$B_i$,但是每个人只能帮助没有他们重量大的人搬行李。若第$i$个人搬运了第$j$个人的行李,那么第$i$个人会累加$C_{i,j}=\left|A_i-A_j\right|\cdot B_j$的体力耗。求$m$个人帮助每个人搬运行李的最小体力耗。 我们可以通过斜率优化DP解决这个问题。记$f_i$为到前$i$个人的最小体力耗,那么状态转移方程为: $$f_i=\min_{j<i}\{f_j+abs(A_i-A_j)\cdot B_i\}$$ 如果直接使用该方程,时间复杂度为$O(n^2)$,如果$n=10^4$,则需要计算$10^8$次,运算时间极长。斜率优化DP通过一些数学推导将方程变形,将时间复杂度降低到$O(n)$,大大缩短了计算时间。 通过斜率优化DP的推导式子,我们可以得到转移方程为: $$f_i=\min_{j<i}\{f_j+slope(j,i)\}$$ 其中,$slope(j,i)$表示直线$j-i$的斜率。我们可以通过如下方式来求解$slope(j,i)$: $$slope(j,i)=\frac{f_i-f_j}{A_i-A_j}-B_i-B_j$$ 如果$slope(j,i)\leq slope(j,k)$,那么$j$一定不是最优,可以直接舍去,降低计算时间。该算法的时间复杂度为$O(n)$。 综上所述,斜率优化DP是一种动态规划优化算法,可以大大缩短计算时间。在处理类似HDU2829 Lawrence问题的时候,斜率优化DP可以很好地解决问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值