博弈背景下的dp与记忆化搜索（两个例题 LightOJ - 1031 Easy Game HDU - 4597 Play Game）

最新推荐文章于 2021-12-05 16:35:17 发布

Kalzn

最新推荐文章于 2021-12-05 16:35:17 发布

阅读量266

点赞数

分类专栏：胡遭dp 记忆化搜索文章标签：博弈 dp 记忆化搜索

本文链接：https://blog.csdn.net/qq_35802619/article/details/97369530

版权

胡遭dp 同时被 2 个专栏收录

30 篇文章 1 订阅

订阅专栏

记忆化搜索

6 篇文章 0 订阅

订阅专栏

对于某些dp，是在博弈的基础上的，针对这些题目，我们不妨设

dp[某一阶段],为该阶段先手的最优子结构

那么对于他的状态转移：

dp[下一状态] = max（忽视对手的最优情况 - dp[上一状态]）

尝试理解：因为博弈中，一个状态的先手，在上一状态是后手，而对手是先手，所以dp[上一状态]其实是对手的最优状态，所以有在忽视对手的最优情况 - 上一状态对手的最优情况。

比较抽象，下面看两个例题：
LightOJ - 1031 Easy Game：
对于这个题目，先处理出前缀和sum[n] 我们设dp[i][j]为区间[i，j]先手与后手的最大分差，对于它来说，忽视对手的最优情况就是把这一区间的所有数都取完，这样先手的得分是sum[j] - sum[j-1],后手是0分。而对于它的状态转移：

dp[i][j] = max( sum[j] - sum[k] - dp[i][k], sum[k] - sum[i-1] - dp[k][j]) （i <= k <= j）

对于每次转移，先后手就会转换，所以分差会变成原来的相反数。
下面是ac代码：

#include <iostream>
#include <cstring>
#include <algorithm>
#define ll long long
using namespace std;
ll dp[128][128];
ll sum[128];
int main()
{
    int tr;
    cin >> tr;
    for (int t = 1; t <= tr; t++)
    {
        int n;
        scanf("%d", &n);
        sum[0] = 0;
        memset(dp, -0x3f, sizeof(dp));
        for (int i = 1; i <= n; i++)
        {
            scanf("%lld", &sum[i]);
            dp[i][i] = sum[i];
            sum[i] += sum[i - 1];
        }
        for (int i = n - 1; i >= 1; i--)
        {
            for (int j = i + 1; j <= n; j++)
            {
                for (int k = i; k <= j; k++)
                {
                    if (k == j)
                    {
                        dp[i][j] = max(dp[i][j], sum[j] - sum[i - 1]);
                        continue;
                    }
                    dp[i][j] = max(dp[i][j], max(sum[k] - sum[i - 1] - dp[k + 1][j], sum[j] - sum[k] - dp[i][k]));
                }
            }
        }
        printf("Case %d: %d\n", t, dp[1][n]);
    }
    return 0;
}

HDU - 4597 Play Game
这个题虽然比较难一些，但是和上面的题目思路一致，而且更贴合上述的思想。我们设dp[al][ar][bl][br]为在第一堆牌（al，ar）第二堆牌（bl，br）的区间阶段中，先手的最大分数。我们进行记忆化搜索。
显然，无视对手的最优状态就是假定这一区间的所有牌都是先手取（实际不可能）

sum = suma[i] - suma[j-1] + sumb[g] - sumb[k-1]

而状态转移方程：

dp[al][ar][bl][br] = max(dp[al][ar][bl][br], sum - dfs(al, ar-1, bl, br));
dp[al][ar][bl][br] = max(dp[al][ar][bl][br], sum - dfs(al + 1, ar, bl, br));
dp[al][ar][bl][br] = max(dp[al][ar][bl][br], sum - dfs(al, ar, bl, br - 1));
dp[al][ar][bl][br] = max(dp[al][ar][bl][br], sum - dfs(al, ar, bl + 1, br));

注意一下边界的判定就可以了。
下面是ac代码

#include <iostream>
#include <algorithm>
#include <cstdlib>
#include <string>
#include <cstring>
#include <queue>
#include <cmath>
#include <cstdio>
#define ll long long
using namespace std;
const int N = 1e5+5;
int dp[26][26][26][26];
int a[26], b[26], suma[26], sumb[26];
void init()
{
    memset(suma, 0, sizeof(suma));
    memset(sumb, 0, sizeof(sumb));
    memset(dp, 0, sizeof(dp));
}
int dfs(int al, int ar, int bl, int br)
{
    if (dp[al][ar][bl][br]) return dp[al][ar][bl][br];
    if (al > ar && bl > br)
    {
        //printf("%d %d %d %d : %d\n", al, ar, bl, br, dp[al][ar][bl][br]);
        return 0;
    }
    int sum = suma[ar] - suma[al-1] + sumb[br] - sumb[bl - 1];
    if (al <= ar) dp[al][ar][bl][br] = max(dp[al][ar][bl][br], sum - dfs(al, ar-1, bl, br));
    if (al <= ar) dp[al][ar][bl][br] = max(dp[al][ar][bl][br], sum - dfs(al + 1, ar, bl, br));
    if (bl <= br) dp[al][ar][bl][br] = max(dp[al][ar][bl][br], sum - dfs(al, ar, bl, br - 1));
    if (bl <= br) dp[al][ar][bl][br] = max(dp[al][ar][bl][br], sum - dfs(al, ar, bl + 1, br));
    //printf("%d %d %d %d : %d\n", al, ar, bl, br, dp[al][ar][bl][br]);
    return dp[al][ar][bl][br];
}
int main()
{
    int t;
    cin >>t;
    while(t--)
    {
        init();
        int n;
        scanf("%d", &n);
        for (int i = 1; i <= n; i++)
        {
            scanf("%d", &a[i]);
            suma[i] = suma[i-1] + a[i];
        }
        for (int i = 1; i <= n; i++)
        {
            scanf("%d", &b[i]);
            sumb[i] = sumb[i-1] + b[i];
        }
        printf("%d\n", dfs(1, n, 1, n));
    }
    return 0;
}