如何理解马尔可夫决策过程？

HenrySmale

已于 2022-03-23 11:58:12 修改

阅读量1.8k

点赞数 1

分类专栏：强化学习文章标签：机器学习

于 2022-03-21 15:22:14 首次发布

本文链接：https://blog.csdn.net/search_129_hr/article/details/123636472

版权

强化学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文介绍了马尔可夫决策过程(MDP)的基本概念，包括马尔可夫性、状态转移概率和回报函数，并通过下棋的例子进行了生动解释。MDP由状态集、动作集、状态转移概率和回报函数构成，用于描述智能体在环境中如何选择行动以最大化长期回报。值函数是衡量策略优劣的关键，分为有限步和无限步折扣回报两种形式。此外，文章还提到了MDP在2048游戏建模中的挑战，包括状态转移概率的统计和奖励函数的设计。

摘要由CSDN通过智能技术生成

1 引言

马尔可夫性：无后效性，指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关；
马尔可夫链(Markov Chain, MC)：系统的下一个状态只与当前状态相关；
马尔可夫决策过程(Markov Decision Process, MDP)：具有马尔可夫性，与MC不同的是MDP还考虑了动作，即系统下个状态不仅和当前的状态有关，也和当前采取的动作有关。
以下棋为例：我们在某个局面（状态 $s_i$ ）走了一步(动作 $a_i$ )，这时对手的选择（导致下个状态 $s_{i+1}$ ）我们是不能确定的，但是他的选择只和 $s_i$ 和 $a_i$ 有关，而不用考虑更早之前的状态和动作。

2 马尔可夫决策过程

一个马尔可夫决策过程可以由一个四元组表示：
$P_{sa}, R) \tag1$

$\{s_1, s_2, \dots, s_k\}$ ：状态集(states)， $s_i$ 表示第 $i$ 步的状态;
$\{a_1, a_2, \dots, a_k\}$ ：一组动作(actions)， $a_i$ 表示第 $i$ 步的动作;
$P_{sa}$ ：状态转移概率，当前 $s_i \in S$ 状态下，经过 $a_i \in A$ 作用后，会转移到的其它状态的概率分布情况，例如比如，在状态 $s_i \in S$ 下执行动作 $a_i \in A$ ，转移到 $s_{i+1} \in S$ 的概率可以表示为 $p(s_{i+1} \vert s_i, a_i)$ ;
$\times A \mapsto \mathbb{R}$ ：回报函数(reward function)，如果回报只与状态有关，可以简化为 $\mapsto \mathbb{R}$ 。如果一组 $s_{i},a_i)$ 转移到了下个状态 $s_{i+1}$ ，那么回报函数可记为 $r(s_{i+1}|s_i, a_i)$ 。如果 $s_i,a_i)$ 对应的下个状态 $s_{i+1}$ 是唯一的，那么回报函数也可以记为 $r(s_i,a_i)$ 。

MDP 的动态过程如下：

智能体(agent)的初始状态为 $s_0$ ;
从 $A$ 中挑选一个动作 $a_0$ 执行，执行后，agent 按 $P_{sa}$ 概率随机转移到了下一个 $s_1$ 状态， $s_1 \in P_{s_0a_0}$ 。
然后再执行一个动作 $a_1$ ，就转移到了 $s_2$ ，接下来再执行 $a_2$ ，…；
可以用下面的图表示状态转移的过程：

在这里插入图片描述
如果回报 $r_i$ 是根据状态 $s_i$ 和动作 $a_i$ 得到的，则MDP可以如图表示：

3 值函数(value function)

增强学习学到的是一个从环境状态到动作的映射（即行为策略），记为策略 $π : S \to A$ 。而增强学习往往又具有延迟回报的特点: 如果在第 $n$ 步输掉了棋，那么只有状态 $s_n$ 和动作 $a_n$ 获得了立即回报 $r(s_n,a_n)=-1$ ，前面的所有状态立即回报均为0。所以对于之前的任意状态 $s$ 和动作 $a$ ，立即回报函数 $r (s, a)$ 无法说明策略的好坏。因而需要定义值函数(value function，又叫效用函数)来表明当前状态下策略 $π$ 的长期影响。

$V^π(s)$ ：策略 $π$ 下，状态 $s$ 的值函数；
$r_i$ ：未来第 $i$ 步的立即回报。

常见的值函数有以下三种：
$V^π(s) = E_{\pi}\left[\sum_{i=0}^{h} r_i \vert s_0 = s \right] \tag2$

$V^π(s) = \lim_{h \rightarrow \infty}E_{\pi}\left[\frac{1}{h}\sum_{i=0}^{h} r_i \vert s_0 = s \right] \tag3$

$V^π(s) = E_{\pi}\left[\sum_{i=0}^{\infty} \gamma^{i} r_i \vert s_0 = s \right] \tag4$
其中：
a) 是采用策略π的情况下未来有限h步的期望立即回报总和；
b) 是采用策略π的情况下期望的平均回报；
c) 是值函数最常见的形式，式中 $γ \in [0, 1]$ 称为折合因子，表明了未来的回报相对于当前回报的重要程度。特别的， $γ = 0$ 时，相当于只考虑立即不考虑长期回报， $γ = 1$ 时，将长期回报和立即回报看得同等重要。

4 策略

在这里插入图片描述

5 对2048游戏的建模

$s_1$ ：初始化状态，随机产生的棋盘；
$a_1$ ：用户连接相同的数字后，系统为棋盘分配新数字的动作；
$s_2$ ：用户选择如何连线后导致的下一个棋盘，该棋盘依然有空缺，需要填充新数字；
$p(s_{2} \vert s_1, a_1)$ ：经过 $a_1$ 操作后状态从 $s_1$ 到 $s_2$ 的概率，这个我觉得可以通过统计得到；
奖励函数：是设计的难点
如何进行训练：也是一个难点