【期望dp】NOIP2016换教室

最新推荐文章于 2022-01-14 21:50:32 发布

Balala_Energy

最新推荐文章于 2022-01-14 21:50:32 发布

阅读量733

点赞数 1

分类专栏：期望dp 文章标签： dp noip

本文链接：https://blog.csdn.net/balala_energy/article/details/53508727

版权

期望dp 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

【问题描述】
对于刚上大学的牛牛来说, 他面临的第一个问题是如何根据实际情况中情合适的课程。

在可以选择的课程中,有2n节课程安排在n个时间段上。在第 i ( 1≤ i≤n)个时同段上, 两节内容相同的课程同时在不同的地点进行, 其中, 牛牛预先被安排在教室 ci上课, 而另一节课程在教室 di进行。

在不提交任何申请的情况下,学生们需要按时间段的顺序依次完成所有的n节安排好的课程。如果学生想更换第i节课程的教室,则需要提出中情。若申请通过,学生就可以在第 i个时间段去教室 di上课, 否则仍然在教室 ci上课。

由于更换教室的需求太多, 申请不一定能获得通过。通过计算, 牛牛发现申请更换第 i节课程的教室时, 中情被通过的概率是一个已知的实数 ki, 并且对于不同课程的申请, 被通过的概率是互相独立的。

学校规定, 所有的申请只能在学期开始前一次性提交, 并且每个人只能选择至多m节课程进行申请。这意味着牛牛必须一次性决定是否申请更换每节课的教室, 而不能根据某些课程的申请结果来决定其他课程是否申请; 牛牛可以申请白己最希望更换教室的 m门课程,也可以不用完这m个中情的机会,甚至可以一门课程都不申请。

因为不同的课程可能会被安排在不同的教室进行, 所以牛牛需要利用课问时间从一间教室赶到另一间教室。

牛牛所在的大学有 v个教室,有 e条道路。每条道路连接两间教室, 并且是可以双向通行的。由于道路的长度和拥;i者程度不同, 通过不同的道路耗费的体力可能会有所不同。当第i ( 1≤i≤n-1 )节课结束后,牛牛就会从这节课的教室出发,选择一条耗费体力最少的路径前往下一节课的教室。

现在牛牛想知道,申请哪几门课程可以使他因在教室问移动耗费的体力值的总和的期望值最小,请你帮他求出这个最小值。

【问题分析】
妥妥地期望dp是没跑了，但是该如何dp呢？
首先要明确一个问题，当你确定一种换的方案的时候，期望最小距离是什么呢？ $E(x)=\sum P(x)*f(x)$
就是对于每种换成功和换不成功的具体情况下发生的概率乘以此情况下的距离之和。所以爆搜可以根据此写。

那么dp呢？讲道理dp就是在dfs的基础上保留当前最优解，因为无后效性。证明：显然，当前情况申请失败成功对后面失败成功概率没有任何影响<–__<–

所以dp方程式详见下面的程序（太长了。。。

#include <iostream>
#include <cstdio>
#include <cstring>
using namespace std;
const int N=2001;
const int inf=9999999;
int n,m,v,e; double ans; int c[N],d[N]; double k[N],fail[N];
int dist[N][N]; double F[N][N][2];
int readin()
{
    int x=0,f=1; char ch=getchar();
    while(ch>'9'||ch<'0') {if(ch=='-')f=-1;ch=getchar();}
    while(ch>='0'&&ch<='9') {x=x*10+ch-'0';ch=getchar();}
    return x*f;
}
void read()
{
    int a,b,w;
    n=readin(),m=readin(),v=readin(),e=readin();
    memset(dist,0x3f,sizeof dist);
    for (int i=1;i<=n;i++) c[i]=readin();
    for (int i=1;i<=n;i++) d[i]=readin();
    for (int i=1;i<=n;i++)
    {
        scanf("%lf",&k[i]);
        fail[i]=(double)1-k[i];
    }
    for (int i=1;i<=e;i++)
    {
        a=readin(),b=readin(),w=readin();
        dist[a][b]=dist[b][a]=min(dist[a][b],w);
    }
    for (int i=0;i<=v;i++)
        dist[i][i]=0,dist[i][0]=dist[0][i]=0;
    return;
}
void floyed()
{
    for (int k=1;k<=v;k++)
        for (int i=1;i<=v;i++)
        for (int j=1;j<=v;j++)
        if (dist[i][j]>dist[i][k]+dist[k][j])
            dist[i][j]=dist[i][k]+dist[k][j];
    return;
}
void dp()
{
    for (int i=0;i<=n;i++)
    for (int j=0;j<=m;j++)
        F[i][j][0]=F[i][j][1]=inf;
    F[0][0][0]=0;
    for (int i=1;i<=n;i++)
        for (int j=0;j<=m;j++)
        {
            F[i][j][0]=min(F[i-1][j][0]+(double)dist[c[i-1]][c[i]],F[i-1][j][1]+fail[i-1]*(double)dist[c[i-1]][c[i]]+k[i-1]*(double)dist[d[i-1]][c[i]]);
            if (j) F[i][j][1]=min(F[i-1][j-1][0]+fail[i]*(double)dist[c[i-1]][c[i]]+k[i]*(double)dist[c[i-1]][d[i]],F[i-1][j-1][1]+fail[i-1]*(k[i]*(double)dist[c[i-1]][d[i]]+fail[i]*(double)dist[c[i-1]][c[i]])+k[i-1]*(k[i]*(double)dist[d[i-1]][d[i]]+fail[i]*(double)dist[d[i-1]][c[i]]));
        }
    ans=inf;
    for (int i=0;i<=m;i++)
        ans=min(ans,min(F[n][i][0],F[n][i][1]));
    printf("%.2lf\n",ans);
    return;
}
int main()
{
    read();
    floyed();
    dp();
    return 0;
}

$F[i][j][k]$ 表示前 $i$ 次机会用了 $j$ 次机会，最后一次也就是第 $i$ 次， $k=0$ 表示没有申请, $k=1$ 表示进行申请。这个神奇的状态还有一点需要理解就是即使 $k=1$ 但是无法确定第 $i$ 次申请到底通没通过，因为存储的是一个期望距离，没有储存其他状态。这个首先必须要弄明白。

进入正题，如何解释&&证明dp方程式的正确性呢？

$F[i][j][0]=min(????);$

如果上次没有申请 $F[i-1][j][0]+(double)dist[c[i-1]][c[i]]$

如果上次进行申请 $F[i-1][j][1]+fail[i-1]*(double)dist[c[i-1]][c[i]]+k[i-1]*(double)dist[d[i-1]][c[i]]$ 因为一共有俩种可能性，要么失败要么成功，分别用发生的概率乘以对应的距离加和即为对 $ans$ 的贡献。

那么下面同理了。。这里不再赘述。。（太tm长了。。

$PS$ $Ferric$ dalao总是纠结为什么期望还可以使用加法的正确性证明。我觉得我是说不明白了。。试试吧。。

就像刚才所述，因为dp表示的是你选择了某一种方案下的最小期望，那么我们对于每种方案来看都是 $100 \%$ 概率，所以直接乘下一步不同情况的概率即可，没有必要累加。换言之，最后你只会从dp代表的成千上万种换教室申请递交方案中（注：不同的递交方案指的是你选择的要换的时间段不同，而不是与换没换成功有关的具体每个时间段在哪个教室）选取一种，所以不用去考虑其他方案对于这种方案的影响。

$rp++$