zoj3329_One Person Game_概率DP

题目大意

三个色子分别有k1 k2 k3 个面,标号都为1~ki,落到各面的概率相等。从0开始每抛一次色子前进三个色子的点数和个单位,直到前进至大于n。当抛出a,b,c时,回到0。求抛色子的次数的期望。

思路

求期望时适宜用时间上晚于此状态的状态来更新此状态。
设此状态为p,并以一定的概率转移到a,b,c状态,则
dp[p] 可用 pr(p, a) * dp[a] + pr(p, b) * dp[b] + pr(p, c) * dp[c] 来更新。这时如果时间上晚的状态能先于时间上早的状态求解则能较容易的地推出结果。
这题中如果不会因为抛出a, b, c而回到0,则定义dp[i]为还需要抛的次数,就能从后往前递推求解。
但由于有回到0的限制,发现状态的期望值之间的其实是循环定义的关系的,也就很难以一定的顺序递推求解。
当我们以代数的角度看待这个问题,dp[i] (i >= 0 && i <= n)为n + 1个变量很容易写出 n + 1 个线性的约束方程,可通过高斯消元求解,复杂度为O(n^2)
但如果我们只把dp[0]看作变量x,我们便可从后往前递推出,dp[i] = k * x + b (k, b为常数)
如dp[n] = 1 / (k1 * k2 * k3) * dp[0] + 1
最终 dp[0] = k * dp[0] + b, 于是O(n) 复杂度递推,O(1)复杂度求解

#include <iostream>
#include <cstdio>
#include <cstring>
#include <algorithm>
#include <cmath>
#define INF 0x3f3f3f3f
#define rep0(i, n) for (int i = 0; i < n; i++)
#define rep1(i, n) for (int i = 1; i <= n; i++)
#define rep_0(i, n) for (int i = n - 1; i >= 0; i--)
#define rep_1(i, n) for (int i = n; i > 0; i--)
#define MAX(x, y) (((x) > (y)) ? (x) : (y))
#define MIN(x, y) (((x) < (y)) ? (x) : (y))
#define mem(x, y) memset(x, y, sizeof(x))
#define MAXN 510
#include <iomanip>
#define eps 1e-10
using namespace std;
int n, k1, k2, k3, a, b, c, cnt[20];
double aa[MAXN], bb[MAXN];
void solve()
{

    mem(cnt, 0);
    for (int i = 0; i <= n; i++)
        aa[i] = bb[i] = 0;

    for (int x = 1; x <= k1; x++)
    {
        for (int y = 1; y <= k2; y++)
        {
            for (int z = 1; z <= k3; z++)
            {
                if (x == a && y == b && z == c)
                    continue;
                if (x + y + z <= n)
                    cnt[x + y + z]++;
            }
        }
    }
    for (int i = n; i >= 0; i--)
    {
        aa[i] += (double)1 / (k1 * k2 * k3);
        bb[i] += (double)1;
        for (int t = 1; t < 20; t++)
        {
            if (i + t <= n)
            {
                bb[i] += (double)cnt[t] / (k1 * k2 * k3) * bb[i + t];
                aa[i] += (double)cnt[t] / (k1 * k2 * k3) * aa[i + t];
            }
        }
    }
    printf("%.15f\n", bb[0] / (1 - aa[0]));


    //cout << setprecision(16) << bb[0] / (1 - aa[0]) << endl;



}

int main()
{
    #ifndef ONLINE_JUDGE
        freopen("in.txt", "r", stdin);
    #endif // ONLINE_JUDGE
    int t;
    scanf("%d", &t);
    while (t--)
    {
        scanf("%d %d %d %d %d %d %d", &n, &k1, &k2, &k3, &a, &b, &c);
        solve();
    }

    return 0;
}



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值