uva10900 概率dp

思路参考了紫书中的分析,在这里大概地说一下

d[i]表示当前已经回答对了i个问题,所能获得的最多奖金的期望。由于除了n个问题已经全部答完的情况,对于每个d[i],我们有以下两种决策,就是根据当前题目的难度,判断出是回答导致的奖金期望比较大还是不回答导致的奖金期望比较大。所以我们不难获得一个等式:设p是当前题目的难度(已知),那么当d[i+1]*p>2^i时,回答这个问题比较好,反之,不回答这个问题比较好。

于是我们先计算出这个p。由于题目规定了p的下界是t,所以我们取p=max(t,d[i+1]/(2^i));

其中,出现不回答问题比较好的概率是(p-t)/(1-t),出现回答问题比较好的概率是(1-p)/(1-t);

对于这两种情况,我们分别计算它的期望,并且按照回答和不回答的概率计算期望。

那么我们得到公式:d[i]=(2^i)*(p-t)/(1-t)+d[i+1]*(1-p)/(1-t)*(1+p)/2;

注意边界d[n]=2^n.

这时候我们注意到题目所求其实等效于“回答对0个问题后的最大奖金期望”。输出d[0]即可。

#include<bits/stdc++.h>
using namespace std;
int n;
double d[40], t;
double p, p0;
int main()
{
	while (scanf("%d%lf", &n, &t) == 2 && n) {
		d[n] = 1 << n;
		p = (1 + t)*0.5;
		for (int i = n - 1; i >= 0; i--) {
			p0 = max(t, (1 << i) / d[i + 1]);
			d[i] = (1 << i)*(p0 - t) / (1 - t) + d[i + 1] * (1 + p0)*0.5*(1 - p0) / (1 - t);
		}
		printf("%.3lf\n", d[0]);
	}
}


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值