BZOJ 4720 浅谈期望动态规划状态转移

最新推荐文章于 2024-04-12 14:37:21 发布

BerryKanry

最新推荐文章于 2024-04-12 14:37:21 发布

阅读量770

点赞数

分类专栏： DP 期望DP 文章标签：动态规划

本文链接：https://blog.csdn.net/BerryKanry/article/details/77099013

版权

DP 同时被 2 个专栏收录

34 篇文章 0 订阅

订阅专栏

期望DP

9 篇文章 0 订阅

订阅专栏

这里写图片描述
世界真的很大
期望DP也是DP，其求的不光是概率的加权平均值了，还要考虑到最优状态的转移
其实一直不是很理解期望这种东西本身就是一个平均值了怎么还存在最优？
其实大概就是有80%几率得100元，20%几率得1元，二者不可得兼，我们肯定会选前者这么一个道理
当然有可能纵然80%的概率还是身无分文，但是求的是期望。。前者期望赚钱肯定比后者高，但不是绝对，只是概率的加权平均值
理解了后大概就把期望当成普通DP来做便是，考虑状态转移。
看题先：
description

对于刚上大学的牛牛来说,他面临的第一个问题是如何根据实际情况申请合适的课程。在可以选择的课程中,有2n节 
课程安排在n个时间段上。在第i(1≤i≤n)个时间段上,两节内容相同的课程同时在不同的地点进行,其中,牛牛预先 
被安排在教室ci上课,而另一节课程在教室di进行。在不提交任何申请的情况下,学生们需要按时间段的顺序依次完 
成所有的n节安排好的课程。如果学生想更换第i节课程的教室,则需要提出申请。若申请通过,学生就可以在第i个 
时间段去教室di上课,否则仍然在教室ci上课。由于更换教室的需求太多,申请不一定能获得通过。通过计算,牛牛 
发现申请更换第i节课程的教室时,申请被通过的概率是一个已知的实数ki,并且对于不同课程的申请,被通过的概率 
是互相独立的。学校规定,所有的申请只能在学期开始前一次性提交,并且每个人只能选择至多m节课程进行申请。 
这意味着牛牛必须一次性决定是否申请更换每节课的教室,而不能根据某些课程的申请结果来决定其他课程是否申 
请;牛牛可以申请自己最希望更换教室的m门课程,也可以不用完这m个申请的机会,甚至可以一门课程都不申请。因 
为不同的课程可能会被安排在不同的教室进行,所以牛牛需要利用课间时间从一间教室赶到另一间教室。牛牛所在 
的大学有v个教室,有e条道路。每条道路连接两间教室,并且是可以双向通行的。由于道路的长度和拥堵程度不同, 
通过不同的道路耗费的体力可能会有所不同。当第i(1≤i≤n-1)节课结束后,牛牛就会从这节课的教室出发,选择一 
条耗费体力最少的路径前往下一节课的教室。现在牛牛想知道,申请哪几门课程可以使他因在教室间移动耗费的体 
力值的总和的期望值最小,请你帮他求出这个最小值。

input

第一行四个整数n,m,v,e。n表示这个学期内的时间段的数量;m表示牛牛最多可以申请更换多少节课程的教室; 
v表示牛牛学校里教室的数量;e表示牛牛的学校里道路的数量。 
第二行n个正整数,第i(1≤i≤n)个正整数表示c,,即第i个时间段牛牛被安排上课的教室;保证1≤ci≤v。 
第三行n个正整数,第i(1≤i≤n)个正整数表示di,即第i个时间段另一间上同样课程的教室;保证1≤di≤v。 
第四行n个实数,第i(1≤i≤n)个实数表示ki,即牛牛申请在第i个时间段更换教室获得通过的概率。保证0≤ki≤1。 
接下来e行,每行三个正整数aj,bj,wj,表示有一条双向道路连接教室aj,bj,通过这条道路需要耗费的体力值是Wj; 
保证1≤aj,bj≤v,1≤wj≤100。 
保证1≤n≤2000,0≤m≤2000,1≤v≤300,0≤e≤90000。 
保证通过学校里的道路,从任何一间教室出发,都能到达其他所有的教室。 
保证输入的实数最多包含3位小数。

output

输出一行,包含一个实数,四舎五入精确到小数点后恰好2位,表示答案。你的 
输出必须和标准输出完全一样才算正确。 
测试数据保证四舎五入后的答案和准确答案的差的绝对值不大于4*10^-3。(如果你不知道什么是浮点误差,这段话 
可以理解为:对于大多数的算法,你可以正常地使用浮点数类型而不用对它进行特殊的处理)

看完题我就想说。。好长。。
概括一下：
有v个教室和e条路径。有n个时刻，某个时刻i一开始在c[i]这个教室上课，可以申请换去课室d[i]上课，只能申请一次且成功率为p[i]，最多申请m次，若时刻i在教室x上完课且下一时刻要到教室y上课则需要耗费dis[x,y]的时间。问如何分配申请使得期望耗费的时间最小。
v<=300,n,m<=2000
首先由一点人生的经验，期望这种东西是可以递推的，具体怎么回事我没来得及细想，不然也没法DP了是吧
首先看一下，其实每个时间段能在哪里是固定了的，至多两种可能，就是说，对于第i个时间段，要么在c[i]，要么在d[i]，反过来想那么DP整张图作用就并不大，反正涉及到的也不过那么些点，反之对于每一个时间段，不仅有对应的c，d教室，还有申请的成功率，自然想到大概是对时间段DP了吧。。
PS：其实大多数这种情况看n代表哪个变量就知道DP哪个了233
然后对于总共的申请次数有一个限制m，且m可以不用完，就意味着最后得到答案时需要统计申请次数为0到m的各种情况，那么显然DP方程里面是必须带上一个m的，表示当前用掉了几次申请
然而需要考虑的还有每次从哪个点走向哪个点，这个就和在当前点有没有申请有很大关系了，可以不申请，申请也有概率失败，而由这个点走向下一个点或者由那个点走向这个点，都是有这个或者上一个有没有申请而决定，所以我们需要再来一个01来表示当前时间段有没有申请换教室
推理了一波DP状态就被设计出来了
f[i][j][k]表示，当前时间为I，已经用掉的申请次数为j，k为0或1，表示当前没有申请换教室或是申请了，在这种情况下，只需要上前i节课的，最小体力期望值
说出来有点绕但并不难懂，好好想想
由于需要任意两点之间的距离，当然不可能偏偏去选长的，所以用弗洛伊德跑一遍最短路
那么就考虑转移了，由于末尾带01当然要分开来讨论
首先是0的情况，意思是当前状态f（i，j，0），没有申请，自然就固定下来了当前的位置，没有申请那教室自然还在c[i]，既然这次没有申请那自然申请次数不会变少，那只可能由f(i-1,j,0)和f(i-1,j,1)转移过来
先考虑 f(i-1,j,0)，没有什么好说的，其位置也是固定的，c[i-1]，那么f[I][j][0]=f[i-1][j][0]+dis[c[i-1]][c[i]]
然后是f(i-1,j,1)，这个就比较尴尬了，虽然这一次的位置是确定的，但是上一次就不确定了，由于申请可能失败的缘故，而上一次在d[i-1]的概率即申请成功的概率为p[i-1]，反之的概率为1-p[i-1]，那么直接有各自的概率乘上相对应的距离，就是期望，加上就好f[i][j][0]=f[i-1][j][1]+dis[c[i-1]][c[i]]*(1-p[i-1])+dis[d[i-1]][c[i]]*p[i-1]，两者之间取一个min就好
然后是1的情况
由于用掉了一次申请，所以只能由f(i-1,j-1,0)，f(i-1,j-1,1)转移过来
先考虑f(i-1,j-1,0)，就是上一次的位置是固定的，这一次不固定，参照前文，由申请成功不成功的概率乘上对应距离加上就好f（i，j，1）=f[i-1][j-1][0]+dis[c[i-1]][c[i]]*(1-p[i])+dis[c[i-1]][d[i]]*p[i]
然后是f（i-1，j-1，1），这个就比较复杂了，由于前一次和这一次的状态都是不确定的，一共有4种情况，不嫌麻烦的话还是很好懂的：f[i-1][j-1][1]+dis[c[i-1]][c[i]](1-p[i-1])(1-p[i])+dis[c[i-1]][d[i]](1-p[i-1])*p[i]+dis[d[i-1]][c[i]]*p[i-1](1-p[i])+dis[d[i-1]][d[i]]*p[i-1]*p[i]
以上
值得注意的地方
这道题有点坑，题目有可能在同两个点之间给出多条边。。跑最短路时直接忽略长的只要最短的就行了
完整代码：

#include<stdio.h>
#include<cstring>
#include<algorithm>
using namespace std;

int n,m,nn,mm,c[100010],d[100010],dis[310][310];
double ans=1e30,p[100010],f[2020][2020][2];

int main()
{
    scanf("%d%d%d%d",&n,&m,&nn,&mm);
    for(int i=1;i<=n;i++) scanf("%d",&c[i]);
    for(int i=1;i<=n;i++) scanf("%d",&d[i]);
    for(int i=1;i<=n;i++) scanf("%lf",&p[i]);
    memset(dis,0x3f3f3f3f,sizeof(dis));
    for(int i=1;i<=mm;i++)
    {
        int u,v,w;
        scanf("%d%d%d",&u,&v,&w);
        int tmp=min(dis[u][v],dis[v][u]);
        dis[u][v]=dis[v][u]=min(w,tmp);
    }
    for(int i=1;i<=nn;i++) dis[i][i]=0;
    for(int k=1;k<=nn;k++)
        for(int i=1;i<=nn;i++)
            for(int j=1;j<=nn;j++)  
                dis[i][j]=min(dis[i][j],dis[i][k]+dis[k][j]);
    for(int i=1;i<=n;i++)
        for(int j=0;j<=m;j++)
            f[i][j][0]=f[i][j][1]=1e30;
    f[1][0][0]=f[1][1][1]=0;
    for(int i=2;i<=n;i++)
        for(int j=0;j<=m;j++)
        {
            double tmp1=f[i-1][j][0]+dis[c[i-1]][c[i]];
            double tmp2=f[i-1][j][1]+dis[c[i-1]][c[i]]*(1-p[i-1])+dis[d[i-1]][c[i]]*p[i-1];
            f[i][j][0]=min(tmp1,tmp2);
            if(j>=1)
            {
                tmp1=f[i-1][j-1][0]+dis[c[i-1]][c[i]]*(1-p[i])+dis[c[i-1]][d[i]]*p[i];
                tmp2=f[i-1][j-1][1]+dis[c[i-1]][c[i]]*(1-p[i-1])*(1-p[i])+dis[c[i-1]][d[i]]*(1-p[i-1])*p[i];
                tmp2+=dis[d[i-1]][c[i]]*p[i-1]*(1-p[i])+dis[d[i-1]][d[i]]*p[i-1]*p[i];
                f[i][j][1]=min(tmp1,tmp2);
            }
        }
    for(int i=0;i<=m;i++)
        ans=min(ans,f[n][i][0]);
    for(int i=0;i<=m;i++)
        ans=min(ans,f[n][i][1]);
    printf("%0.2lf\n",ans);
    return 0;
}
/*
Whoso pulleth out this sword from this stone and anvil is duly born King of all England
*/

嗯，就是这样

BerryKanry

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
BZOJ 4720 浅谈期望动态规划状态转移

世界真的很大期望DP也是DP，其求的不光是概率的加权平均值了，还要考虑到最优状态的转移其实一直不是很理解期望这种东西本身就是一个平均值了怎么还存在最优？其实大概就是有80%几率得100元，20%几率得1元，二者不可得兼，我们肯定会选前者这么一个道理当然有可能纵然80%的概率还是身无分文，但是求的是期望。。前者期望赚钱肯定比后者高，但不是绝对，只是概率的加权平均值理解了后大概就把期
复制链接

扫一扫