挑战程序设计竞赛：Millionaire

最新推荐文章于 2020-11-22 17:04:25 发布

无聊的人生事无聊

最新推荐文章于 2020-11-22 17:04:25 发布

阅读量412

点赞数 1

分类专栏：信息科学文章标签： ACM 概率动态规划

本文链接：https://blog.csdn.net/Wangpeiyi9979/article/details/93770754

版权

信息科学专栏收录该内容

159 篇文章 1 订阅

订阅专栏

文章目录

题目大意
解题思路
代码

题目大意

在这里插入图片描述

解题思路

离散化思想: 首先对金钱分阶段进行离散化，如果只有一轮的情况下，容易知道有三个阶段:
在这里插入图片描述
当有两轮的时候，也可以知道，有五个阶段:

当轮数为 $M$ 时，有 $2^M+1$ 个状态

证明:当有 $M$ 轮时，对 $M$ 轮的输赢，共有 $2^M$ 中情况。我们对每一种情况分配一个金钱阶段，在这种情况下，处于这个金钱阶段里的金钱最终能够到达 $1000000$ 。比如对全输的情况，那么对应的金钱阶段就是大于等于 $1000000$ 元。还有一种情况就是无论如何都到达不了 $1000000$ 元，因此共有 $2^M+1$ 种状态。又因为每次赌博是翻倍的，因此每个阶段的覆盖的金钱区间长度是一样的。

动态规划过程:

定义 $d p [i] [j]$ : 第 $i$ 轮赌博时，拥有的钱在阶段 $j$ 能走人的最大概率。
目标: $d p [1] [s t a g e (X)] :$ 第1轮赌博时，拥有的钱为 $X$ , 其阶段为 $s t a g e (X)$ .此时获胜的最大概率。
状态转移: 对状态 $d p [i] [j]$ 来说，(1)赌徒可以拿出横跨 $k$ 个阶段的钱来赌博。(2)可能赌输也可能赌赢。
- 对(1) 有 $1<=k<=min(2^M+1-j,j)$ , 这里不考虑 $k>=2^M+1-j$ ,是因为没必要花更多的钱去达到更少的钱能够达到的阶段。
- 对(2): 1、赌赢: 概率为 $P$ , 会转移到 $d p [i + 1] [j + k]$ 状态。2、赌输: 概率为 $1 - P$ , 会转移到 $d p [i + 1] [j - k]$ 阶段。
- 由于赌赢赌输互斥，因此由全概率公式，有转态转移方程: $max\{P*dp[i+1][j+k]+(1-P)*dp[i+1][j-k] \quad | 1<=k<=min(2^M+1-j,j)\}$
  前一项 $d p [i + 1] [j + k]$ 是因为拿覆盖 $k$ 阶段出来赌，赢了翻倍即多出 $k$ 阶段钱，即到了 $j + k$ 阶段。
更新策略： $i$ 从大到小更新。(实现时采用滚动数组交替更新)
初始化: 考虑最后一轮：
- 当钱 $0 < = m o n e y < 500000$ 时，概率为0, 即阶段 $1 <=k<=2^{M-1}$ .
- 当 $500000 < = m o n e y < 1000000$ 时, 概率为P，即阶段 $2^{M-1}<k<=2^M$ .
- 概率为 $P$ , 当 $m o n e y > = 1000000$ 时，概率为1，即阶段 $2^M+1$ .
复杂度: $O(M2^M)$

代码

#include<iostream>
#include<stdio.h>
using namespace std;

const double thread = 1000000;
const int MAXM = 16;
double dp[2][1 << MAXM];
double X;
int M;
double P;

int main()
{
    while(cin >> M >> P >> X)
    {
        int m = (1 << M) + 1; // 1 - 2^M + 1共 2^M+1个状态
        double per_range = thread / (m-1);
        for(int i=1; i<=m/2; i++)
            dp[M%2][i] = 0;
        for(int i=m/2; i<=m-1; i++)
            dp[M%2][i] = 0.5;
        dp[M%2][m] = 1.0;

        for(int i=M-1; i>=1; i--)
        {
            for(int j=1; j<=m; j++)
            {
                for(int k=1; k<=min(j, m-j); k++)
                {
                    dp[i%2][j]= max(dp[i%2][j], P*dp[1-i%2][j+k]+(1-P)*dp[1-i%2][j-k]);
                }
            }
        }
        printf("%.6f\n", dp[1%2][(long long)X*m/1000000+1]);
    }
    return 0;
}