深度强化学习Deep Rrinforcement Learning|MDP|POMDP

另一个特点是延迟奖励, 行动没有对应的即时的奖励, 但是每一步棋对于最后的胜利都是有贡献的, 这就导致一个行动可能没有奖励reward, 但是它一定有价值, 不过一个行动的价值, 只有在得到了奖励reward后才能真正得到体现, 而这个reward可能会发生在一段时间之后, 在玩家采取了很多其它的行动之后, 这就称为延迟奖励delayed reward.

在实际得到奖励reward之后, 我们知道以前所采取的行动都对这个奖励reward有贡献, 那么如何学习过去的行动action所具有的价值, 这就涉及到一个Credit Assignment和Backpropagation的问题.

1.5.2一个核心

在经典的RL中有一个核心的问题即Exploration探索 and Exploitation利用.

Exploitation指的是利用, 通过利用RL所学习到的价值函数, 一个极端的例子就是我们有了状态动作价值函数之后, 想当然的应该选择价值最高的对应的动作action.
Exploration指的是探索, 即探索新的动作action, 从而探索新的情况, 这可能会带来更好的结果.

综上, Exploration and Exploitation之间的权衡是RL中的一个核心问题. 如果仅在环境中选择利用, 那么如果仍然按照选取最大价值对应的动作, 那么有可能学习到的不是最优策略, 也就是说该价值对应的动作不一定是最优的; 相反, 有一些对应价值不是最高的动作action, 有可能其实际的价值很高.所以, 我们不仅要利用已有的价值函数, 还应该尝试探索不同的动作从而优化价值函数.

一种比较合理的结合利用与探索的方式应该是：在初始阶段时, agent在与环境的交互非常有用, 可以加深agent对于env的理解; 在逐渐趋于稳定时, 也就是说对于env已经有了一定得了解, 这种情况下采取利用是比较好的, 选择价值函数最大的.

在正式引入马尔可夫链, 马尔可夫决策过程以及部分可观测性马尔科夫决策过程之前, 先引入马尔可夫性, 他们的核心都是马尔可夫性.

所谓的马尔可夫性指的是未来的状态仅依赖于当前状态, 而与过去的状态无关, 换句话说, 如果给定当前状态, 过去的信息对未来的预测是没有额外的价值. 也可以把上述特性称为无后效性.

二、马尔可夫链（Markov Chain, MC）

马尔科夫链是一种随机过程, 描述了在某个状态下的系统如何转移到另一个状态, 核心特性是马尔可夫性, 即未来的状态仅依赖于当前状态, 而与过去的状态无关.

组成部分

状态空间S：代表所有可能的状态的集合, $S=s_{1},s_{2},...,s_{n}$ .

转移概率：指的是从一个状态转移到另一个状态的概率, 通常可表示为 $P(s_{t}|s_{t-1})$ , 表示在t时刻的状态只依赖于t-1时刻的状态.

初始分布：描述的是系统在初始时刻处于各状态的概率分布.

特性

无记忆性：当前状态完全决定未来状态的分布.

平稳性：如果转移概率不随时间变化, 则称为平稳马尔可夫链.

三、马尔科夫决策过程（Markov Decision Process, MDP）

MDP是一个离散的时间随机控制过程。MDP为决策问题的建模提供了一个数学框架，在这些问题中，结果是随机的，并且受决策者或代理的控制. MDP对于研究可以通过动态规划和强化学习技术解决的优化问题是有用的. MDP相比于MC则是加入了智能体agent作为决策者和奖励机制reward. 相对来讲, MDP和POMDP比较适合于单智能体(single-agent)系统, 而对于多智能体(multi-agent)系统来说, 仅依靠MDP和POMDP可能是不够的, 因为多智能体系统一般都是多个智能体间可能会存在着相互作用.

1、典型的马尔科夫过程建模(MDP)

首先，MDP被定义为一个元组 $(S,A,P,R,\gamma)$ 。其中，S是状态的有限集合，A是动作的有限集合，P是指在动作a $(a\in A )$ 执行后从状态s到状态s'的转移概率，并且r是执行动作a之后获得的即时奖励.

我们将 $\pi$ 表示为一个策略，它是一个从状态到动作的映射。MDP的目标是找到一个使奖励函数最大化的最优策略。MDP可以是有限或无限的时间范围。对于有限时间范围MDP，使得期望总汇报最大化的最优策略 $\pi ^{*}$ 由定义，其中， $a_{t}=\pi (s_{t})$ ，指的就是策略在st下选择动作at。对于无限时间范围MDP，目标可以是最大化预期的折扣总奖励或最大化平均奖励。折扣总奖励被定义为，平均奖励被定义为。其中 $\gamma \epsilon [0,1]$ 表示的是折扣率，折现系数γ决定了未来奖励相比于当前奖励的重要性。当 $\gamma =0$ 时，智能体只考虑当前利益，即最大化即时的奖励；相反，若 $\gamma$ 接近于1，智能体/代理agent将会争取长期更高的奖励.

2、部分可观测马尔科夫决策过程（Partially Observable Markov Decision Process，POMDP）：

在MDP中，我们假设系统状态是被agent完全观察到的。然而，在许多情况，智能体agent仅能观察到系统状态的一部分，因此因此，部分可观察马尔可夫决策过程(POMDPs)可用于建模决策问题。

一个典型的POMDP模型可以被定义为六元组 $(S,A,p,r,\Omega ,O)$ ，其中，元组中的前面四个元素可以看到，与基本的MDP模型所代表的含义相同。这其中的 $\Omega$ 和O分别表示观测集合和观测概率。在每个时间点（at each time epoch），agent智能体处于状态s，基于它对当前状态s的信念b(s)选择一个动作a，并观察即时奖励r和当前观察值o。基于观察值o和它对当前状态的信念b(s)，然后智能体更新关于新状态s'的信念b(s')，如下所示（as follows）：

其中，O(o|s,a,s')指的是agent在状态s下采取动作a获得观测o的概率以及agent移动到状态s'。p(s'|s,a)的定义与MDP相同，表示在状态s下执行动作a从状态s到状态s'的转移概率。最后，agent获得的即时奖励r等于MDp中的r(s,a)。与MDP模型相类似，POMDP中的智能体也以寻找最优策略 $\pi ^{*}$ 为目标，以最大化它的预期长期贴现奖励