简单题[期望DP]

18 篇文章 0 订阅
7 篇文章 0 订阅

也许更好的阅读体验
D e s c r i p t i o n \mathcal{Description} Description
桌面上有R张红牌和B张黑牌,随机打乱顺序后放在桌面上,开始一张一张地翻牌,翻到红牌得到1美元,黑牌则付出1美元。可以随时停止翻牌,在最优策略下平均能得到多少钱。
S o l u t i o n \mathcal{Solution} Solution

f [ i ] [ j ] f[i][j] f[i][j]表示有 i i i张红牌, j j j张黑牌的期望收益
考虑翻一张牌,有两种情况

  1. i i + j \frac{i}{i+j} i+ji的概率翻到红牌,此后就只有 i − 1 i-1 i1张红牌, j j j张黑牌
  2. j i + j \frac{j}{i+j} i+jj的概率翻到黑牌,此后就只有 i i i张红牌, j − 1 j-1 j1张黑牌

需要注意的是,不要忘了翻开的牌的贡献
翻开一张牌后,该颜色牌数目就少了一张

所以有
f [ i ] [ j ] = i i + j ( f [ i − 1 ] [ j ] + 1 ) + j i + j ( f [ i ] [ j − 1 ] − 1 ) f[i][j]=\frac{i}{i+j}(f[i-1][j]+1)+\frac{j}{i+j}(f[i][j-1]-1) f[i][j]=i+ji(f[i1][j]+1)+i+jj(f[i][j1]1)
由于是最优策略,所以咱是不可能赔钱的
f [ i ] [ j ] = m a x ( 0 , i i + j ( f [ i − 1 ] [ j ] + 1 ) + j i + j ( f [ i ] [ j − 1 ] − 1 ) ) f[i][j]=max(0,\frac{i}{i+j}(f[i-1][j]+1)+\frac{j}{i+j}(f[i][j-1]-1)) f[i][j]=max(0,i+ji(f[i1][j]+1)+i+jj(f[i][j1]1))

初值 f [ 0 ] [ 1 ] = 0 , f [ 1 ] [ 0 ] = 1 f[0][1]=0,f[1][0]=1 f[0][1]=0,f[1][0]=1,答案为 f [ R ] [ B ] f[R][B] f[R][B]
应正向循环

本篇博客亦被收进期望总结

如有哪里讲得不是很明白或是有错误,欢迎指正
如您喜欢的话不妨点个赞收藏一下吧

期望dp和概率dp是两种不同的动态规划方法。 期望dp是指通过计算每个状态的期望值来求解最终的期望。在期望dp中,我们通常定义dp\[i\]表示在第i个状态时的期望值,然后通过状态转移方程来更新dp数组,最终得到最终状态的期望值。期望dp通常用于求解期望,例如求解骰子的期望点数、求解抽奖的期望次数等。 概率dp是指通过计算每个状态的概率来求解最终的概率。在概率dp中,我们通常定义dp\[i\]表示在第i个状态时的概率,然后通过状态转移方程来更新dp数组,最终得到最终状态的概率。概率dp通常用于求解概率问,例如求解抛硬币出现正面的概率、求解从一副牌中抽到心的概率等。 总结来说,期望dp和概率dp的区别在于它们所计算的是不同的值,期望dp计算的是期望值,而概率dp计算的是概率值。 #### 引用[.reference_title] - *1* [概率/期望dp](https://blog.csdn.net/qq_34416123/article/details/126585094)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [【动态规划】数学期望/概率DP/期望DP详解](https://blog.csdn.net/weixin_45697774/article/details/104274160)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值