期望DP

17 篇文章 0 订阅
7 篇文章 0 订阅

也许更好的阅读体验


数学期望

符号

E = p ∗ v E=p*v E=pv 其中 E E E为期望, v v v为权值, p p p为概率

含义

期望表示多个可能事件的合理分配情况 (本人自己的理解,不喜勿喷)
汉语期望意思是指人们对某样东西的提前勾画出的一种标准,达到了这个标准就是达到了期望值(百度百科)
数学期望也可认为是进行某件事能得到的平均结果,或者理想代价
期望值也许和每个得到值都 不相等
举个例子
你去买彩票,每张彩票 10 10 10元,中了奖可以得 10000 10000 10000元,有 30 % 30\% 30%的概率中奖
我们来算一下买一张彩票的期望利润
首先有 30 % 30\% 30%的概率中奖,根据定义期望得到 30 % ∗ 10000 30\%*10000 30%10000
又有 70 % 70\% 70%的概率不中奖,那么我们期望得到 70 % ∗ 0 70\%*0 70%0
我们每次买一张彩票 100 100% 100会花掉 10 10 10
所以有 E = 30 % ∗ 10000 + 70 % ∗ 0 − 10 = 290 E=30\%*10000+70\%*0-10=290 E=30%10000+70%010=290
我们可认为每买一张彩票赚了 290 290 290
但是实际上无论怎样,一张彩票都不会赚 290 290 290元的。


转移方程

几种常见设转移方程数组的方法

  1. f [ i ] f[i] f[i]表示的是由 i i i状态变成 最终 状态的期望
  2. 按照题意直接设
  3. 把选择的东西加入数组,如 f [ i ] [ j ] f[i][j] f[i][j]表示第 i i i个物品选 j j j个的期望或 f [ i ] [ j ] f[i][j] f[i][j]表示有 i i i A A A物品, j j j B B B物品的期望

求转移方程
应优先考虑进行操作后当前状态会怎么样,而不是如何变成当前状态,即先考虑 逆向
如果逆向没有思路,则考虑 正向


经典例题

注:没有贴出代码,有些题目现在找不到了 (至少博主没有找到),也有博主自己想的题目 (很水),如博主有写代码则已放进标题的链接里,那些链接都是题解,不是原题链接

SP1026FavoriteDice

题目大意

一个 n n n面的骰子,求期望掷几次能使得每一面都被掷到

解决方法

f [ i ] f[i] f[i]表示已经掷到过 i i i面, 期望掷多少次骰子使每一面都被掷到
现在掷一次骰子,有两种情况

  1. i n \frac{i}{n} ni的概率掷到已经掷到过的面,此时仍然还要掷 f [ i ] f[i] f[i]次骰子
  2. n − i n \frac{n-i}{n} nni的概率掷到没掷到过的面,此后就掷到过 i + 1 i+1 i+1个面了,还需掷 f [ i + 1 ] f[i+1] f[i+1]次骰子

需要注意的是,无论是掷到以上哪种情况,都需要掷一次骰子
所以有
f [ i ] = i n f [ i ] + n − i n f [ i + 1 ] + 1 f[i]=\frac{i}{n}f[i]+\frac{n-i}{n}f[i+1]+1 f[i]=nif[i]+nnif[i+1]+1
将其化简
f [ i ] = f [ i + 1 ] + n n − i f[i]=f[i+1]+\frac{n}{n-i} f[i]=f[i+1]+nin

初值 f [ n ] = 0 f[n]=0 f[n]=0,答案为 f [ 0 ] f[0] f[0]
应逆向循环


涂格子/小孩和礼物

题目大意

n n n个格子,每次等概率随机给一个格子染色,问涂 m m m次后期望有多少格子被染色了

解决方法

f [ i ] f[i] f[i]表示涂 i i i次后期望有多少格子被染色了
现在进行第 i i i次染色,仍然有两种情况

  1. f [ i − 1 ] n \frac{f[i-1]}{n} nf[i1]的概率涂到已经涂过的格子
  2. n − f [ i − 1 ] n \frac{n-f[i-1]}{n} nnf[i1]的概率涂到没涂过的格子

需要注意的是,无论是以上哪种,都已经有 f [ i − 1 ] f[i-1] f[i1]个格子被染色了
所以有
f [ i ] = f [ i − 1 ] n ⋅ 0 + n − f [ i − 1 ] n ⋅ 1 + f [ i − 1 ] f[i]=\frac{f[i-1]}{n}·0+\frac{n-f[i-1]}{n}·1+f[i-1] f[i]=nf[i1]0+nnf[i1]1+f[i1]
将其化简
f [ i ] = n − f [ i − 1 ] n + f [ i − 1 ] = n − 1 n f [ i − 1 ] + 1 f[i]=\frac{n-f[i-1]}{n}+f[i-1]=\frac{n-1}{n}f[i-1]+1 f[i]=nnf[i1]+f[i1]=nn1f[i1]+1
此时该式就是一个等差数列套等比数列
于是我们可以求其通项公式,博主懒得求了写下大致过程

k = n − 1 n k=\frac{n-1}{n} k=nn1
f n = k f n − 1 + 1 f_n=kf_{n-1}+1 fn=kfn1+1
f n + 1 k − 1 = k f n − 1 + k k − 1 f_n+\frac{1}{k-1}=kf_{n-1}+\frac{k}{k-1} fn+k11=kfn1+k1k
f n + 1 k − 1 = k ( f n − 1 + 1 k − 1 ) f_n+\frac{1}{k-1}=k(f_{n-1}+\frac{1}{k-1}) fn+k11=k(fn1+k11)
g n = f n + 1 k − 1 g_n=f_n+\frac{1}{k-1} gn=fn+k11
g n = k g n − 1 g_n=kg_{n-1} gn=kgn1
怎么求 g n g_n gn就不用说了吧
f n = g n − 1 k − 1 f_n=g_n-\frac{1}{k-1} fn=gnk11
f n f_n fn也能求出来了

初值 f [ 0 ] = 0 ∣ f [ 1 ] = 1 f[0]=0|f[1]=1 f[0]=0f[1]=1答案为 f [ m ] f[m] f[m]
应正向循环


简单题

题目大意

桌面上有R张红牌和B张黑牌,随机打乱顺序后放在桌面上,开始一张一张地翻牌,翻到红牌得到1美元,黑牌则付出1美元。可以随时停止翻牌,在最优策略下平均能得到多少钱。

解决方法

f [ i ] [ j ] f[i][j] f[i][j]表示有 i i i张红牌, j j j张黑牌的期望收益
考虑翻一张牌,还是有两种情况

  1. i i + j \frac{i}{i+j} i+ji的概率翻到红牌,此后就只有 i − 1 i-1 i1张红牌, j j j张黑牌
  2. j i + j \frac{j}{i+j} i+jj的概率翻到黑牌,此后就只有 i i i张红牌, j − 1 j-1 j1张黑牌

需要注意的是,不要忘了翻开的牌的贡献
翻开一张牌后,该颜色牌数目就少了一张

所以有
f [ i ] [ j ] = i i + j ( f [ i − 1 ] [ j ] + 1 ) + j i + j ( f [ i ] [ j − 1 ] − 1 ) f[i][j]=\frac{i}{i+j}(f[i-1][j]+1)+\frac{j}{i+j}(f[i][j-1]-1) f[i][j]=i+ji(f[i1][j]+1)+i+jj(f[i][j1]1)
由于是最优策略,所以咱是不可能赔钱的
f [ i ] [ j ] = m a x ( 0 , i i + j ( f [ i − 1 ] [ j ] + 1 ) + j i + j ( f [ i ] [ j − 1 ] − 1 ) ) f[i][j]=max(0,\frac{i}{i+j}(f[i-1][j]+1)+\frac{j}{i+j}(f[i][j-1]-1)) f[i][j]=max(0,i+ji(f[i1][j]+1)+i+jj(f[i][j1]1))

初值 f [ 0 ] [ 1 ] = 0 , f [ i ] [ 0 ] = i f[0][1]=0,f[i][0]=i f[0][1]=0,f[i][0]=i,答案为 f [ R ] [ B ] f[R][B] f[R][B]
应正向循环


亚瑟王

题目大意

给出 n n n个技能,每个技能按输入顺序有 p [ i ] p[i] p[i]的概率释放并造成 d [ i ] d[i] d[i]的伤害。每轮游戏从前往后顺序查看每个技能,若技能发动过则跳过,没发动过则以 p [ i ] p[i] p[i]的技能发动,即每个技能只能发动一次,若将一个技能发动,则进行下一轮游戏,没有成功发动或被跳过就查看下一个技能,一轮游戏可能每个技能都不发动,问 r r r轮游戏一共能造成的伤害期望。

解决方法

因为有一个顺序查看的限制,没有后效性的状态是十分不好设的,因为不知道前面有几个技能发动了,若一个技能前面的技能在某轮发动了,则该技能本轮一定不能发动,若前面有些技能发动过,则它们都会被跳过
为了解决这种情况,我们设状态时试着强制限制技能发动( n r nr nr枚举情况),当然,设的状态仍然要满足 所有 情况都考虑在内
f [ i ] [ j ] f[i][j] f[i][j]表示对前 i i i个技能进行了 j j j轮游戏发生的 概率
若前 i i i个技能进行了 j j j轮游戏
则有 j j j轮不会考虑第 i + 1 i+1 i+1个技能
即有 r − j r-j rj轮游戏选择了 i i i之后的技能
此时考虑第 i + 1 i+1 i+1个技能的情况,分为两种

  1. p [ i + 1 ] r − j p[i+1]^{r-j} p[i+1]rj的概率 i + 1 i+1 i+1号技能从未发动
  2. 1 − p [ i + 1 ] r − j 1-p[i+1]^{r-j} 1p[i+1]rj的概率 i + 1 i+1 i+1号技能发动过

需要注意的是,此时 已经 确定前 i i i个技能进行并 只进行 j j j轮游戏,其概率应该也计算在内
所以有

  1. f [ i + 1 ] [ j ] + = 1 − p [ i + 1 ] r − j f [ i ] [ j ] f[i+1][j]+=1-p[i+1]^{r-j}f[i][j] f[i+1][j]+=1p[i+1]rjf[i][j]
  2. f [ i + 1 ] [ j + 1 ] + = ( 1 − p [ i + 1 ] r − j ) f [ i ] [ j ] f[i+1][j+1]+=(1-p[i+1]^{r-j})f[i][j] f[i+1][j+1]+=(1p[i+1]rj)f[i][j]

j + 1 j+1 j+1要小于等于 r r r

初值 f [ 0 ] [ 0 ] = 1 f[0][0]=1 f[0][0]=1,答案在中途计算
应正向循环

计算了概率,别忘了求的是期望伤害,在求概率的时候顺便用概率乘以伤害


抽卡

题目大意

M o r n i n g _ G l o r y \mathcal{Morning\_Glory} Morning_Glory最近迷上了抽卡,每次抽卡抽到 6 6 6星卡的概率为 p p p。抽卡活动进行 n n n天, M o r n i n g _ G l o r y \mathcal{Morning\_Glory} Morning_Glory非常喜欢抽卡,所以他不会错过这个活动的每一天,即每天都一定会抽卡,在第 i i i天必须要花 c [ i ] c[i] c[i]游戏币进行抽卡。求 M o r n i n g _ G l o r y \mathcal{Morning\_Glory} Morning_Glory在活动结束时抽得恰好 k k k 6 6 6星卡的期望游戏币花费。

解决方法

f [ i ] [ j ] f[i][j] f[i][j]表示在第 i i i结束后抽到 j j j 6 6 6星卡的期望游戏币花费
在第 i i i天进行抽卡,有两种情况

  1. p p p的概率抽到 6 6 6星卡
  2. 1 − p 1-p 1p的概率没抽到 6 6 6星卡

需要注意的是无论是否翻到,都要花费
所以有
f [ i ] [ j ] = p ⋅ f [ i − 1 ] [ j − 1 ] + ( 1 − p ) ⋅ f [ i − 1 ] [ j ] + c [ i ] f[i][j]=p·f[i-1][j-1]+(1-p)·f[i-1][j]+c[i] f[i][j]=pf[i1][j1]+(1p)f[i1][j]+c[i]

初值 f [ 0 ] [ 0 ] = 0 f[0][0]=0 f[0][0]=0,答案为 f [ n ] [ k ] f[n][k] f[n][k]
应正向循环


收集邮票

[POJ3682]King_Arthur’s_Birthday_Celebration

这两题是一样的类型,只有概率与计算答案要改一下,这里用收集邮票来做例题
题目大意

n n n种邮票,每天等概率的买一张邮票,第 i i i天购买要花费 i i i元,求收集 n n n种邮票的期望花费

解决方法

先设 f [ i ] f[i] f[i]表示买到 i i i种邮票后,离买到 n n n种邮票的期望还差天数
和最上面那题一样的处理方法
考虑当前买了 i i i张邮票,再买一张邮票,有两种情况

  1. i n \frac{i}{n} ni的概率买到重复的邮票,此时仍只买到 i i i张邮票
  2. n − i n \frac{n-i}{n} nni的概率买到没买过的邮票,此后就已买到 i + 1 i+1 i+1张邮票

需要注意的是,无论哪种情况,都过了一天
所以有
f [ i ] = i n f [ i ] + n − i n f [ i + 1 ] + 1 f[i]=\frac{i}{n}f[i]+\frac{n-i}{n}f[i+1]+1 f[i]=nif[i]+nnif[i+1]+1
将其化简
f [ i ] = f [ i + 1 ] + n n − i f[i]=f[i+1]+\frac{n}{n-i} f[i]=f[i+1]+nin

初值 f [ n ] = 0 f[n]=0 f[n]=0,答案为 f [ 0 ] f[0] f[0]
应逆向循环

当然这只是期望天数,不是期望花费
g [ i ] g[i] g[i]表示 拥有(不是买) i i i种邮票, 买到 n n n种邮票的期望花费
考虑当前拥有了 i i i张邮票,买一张邮票,有两种情况

  1. i n \frac{i}{n} ni的概率买到重复的邮票,此时仍只拥有 i i i
  2. n − i n \frac{n-i}{n} nni的概率买到没买过的邮票,此后就已拥有 i + 1 i+1 i+1张邮票

需要注意的是,无论哪种情况,都买了一张邮票
此时我们不知道每张邮票多少钱
但我们知道每张邮票和过了多少天有关
这次的注意写在前面,我们是认为有了 i i i张邮票后才开始,所以第一天邮票价格为 1 1 1
为什么这么设?
我们不知道也不好处理出前面买了多少张邮票,再买到一张邮票要多少钱
但是我们知道第一天肯定是只要 1 1 1元的,答案为 g [ 0 ] g[0] g[0],中间的过程不重要,只需推出最终答案
我们借助初始状态的这条非常有用的性质于是就设出了这样的 g g g
这样我们可以知道

  1. 若买到重复的邮票,我们知道,因为是设当前是第一天,所以原本希望买到的邮票的天数又往后推了一天,所以总价格要多 f [ i ] f[i] f[i]元,还要加上自己的 1 1 1
  2. 若买到没买过的邮票,同理,因为后面的 g [ i + 1 ] g[i+1] g[i+1]也是从第 1 1 1天开始考虑的,所以原本希望买到的邮票数也往后推了一天,所以价格要多 f [ i + 1 ] f[i+1] f[i+1]元,还要加上自己的 1 1 1

所以有

  1. g [ i ] + = i n ( g [ i ] + f [ i ] + 1 ) g[i]+=\frac{i}{n}(g[i]+f[i]+1) g[i]+=ni(g[i]+f[i]+1)
  2. g [ i ] + = n − i n ( g [ i + 1 ] + f [ i + 1 ] + 1 ) g[i]+=\frac{n-i}{n}(g[i+1]+f[i+1]+1) g[i]+=nni(g[i+1]+f[i+1]+1)

总写下来就是 g [ i ] = i n ( g [ i ] + f [ i ] + 1 ) + n − i n ( g [ i + 1 ] + f [ i + 1 ] + 1 ) g[i]=\frac{i}{n}(g[i]+f[i]+1)+\frac{n-i}{n}(g[i+1]+f[i+1]+1) g[i]=ni(g[i]+f[i]+1)+nni(g[i+1]+f[i+1]+1)

将其化简得到
g [ i ] = i n − i f [ i ] + g [ i + 1 ] + f [ i + 1 ] + n n − i g[i]=\frac{i}{n-i}f[i]+g[i+1]+f[i+1]+\frac{n}{n-i} g[i]=niif[i]+g[i+1]+f[i+1]+nin

初值 g [ n ] = 0 g[n]=0 g[n]=0,答案为 g [ 0 ] g[0] g[0]
应逆向循环


如有哪里讲得不是很明白或是有错误,欢迎指正
如您喜欢的话不妨点个赞收藏一下吧
如能得到推荐博主就更开心了
您的鼓励是博主的动力

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
期望dp和概率dp是两种不同的动态规划方法。 期望dp是指通过计算每个状态的期望值来求解最终的期望。在期望dp中,我们通常定义dp\[i\]表示在第i个状态时的期望值,然后通过状态转移方程来更新dp数组,最终得到最终状态的期望值。期望dp通常用于求解期望问题,例如求解骰子的期望点数、求解抽奖的期望次数等。 概率dp是指通过计算每个状态的概率来求解最终的概率。在概率dp中,我们通常定义dp\[i\]表示在第i个状态时的概率,然后通过状态转移方程来更新dp数组,最终得到最终状态的概率。概率dp通常用于求解概率问题,例如求解抛硬币出现正面的概率、求解从一副牌中抽到红心的概率等。 总结来说,期望dp和概率dp的区别在于它们所计算的是不同的值,期望dp计算的是期望值,而概率dp计算的是概率值。 #### 引用[.reference_title] - *1* [概率/期望dp专题](https://blog.csdn.net/qq_34416123/article/details/126585094)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [【动态规划】数学期望/概率DP/期望DP详解](https://blog.csdn.net/weixin_45697774/article/details/104274160)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值