文章目录
1. 马尔可夫链和马尔可夫过程
马尔可夫特性:未来只取决于当前而与过去无关。
马尔可夫链:是一个概率模型,只依赖于当前状态来预测下一个状态,而与之前的状态无关,即未来与过去无关。马尔可夫链严格遵循马尔可夫特性。
注意,马尔可夫特性对于所有过程并非总是成立。例如,掷色子(下一状态)与先前的数字无关,无论显示什么数字(当前状态)
从一种状态转移到另一种状态称为转移,其概率为转移概率。可以表的形式来表示转移概率,称为马尔可夫表。
也可以用显示转移概率的状态图来表征马尔可夫链。
马尔可夫链的核心概念是未来只取决于现在,而与过去无关。一个随机过程如果遵循马尔可夫特性,则称为马尔可夫过程。
2. MDP
MDP是马尔可夫链的一种扩展。提供了一个用于对决策情景建模的数学框架。几乎所有的强化学习都可以建模为MDP。
MDP可由5个关键要素表示:
- 智能体能够真正处于的一组状态( S S S)
- 智能体从一种状态转移到另一种状态所执行的一组行为( A A A)
- 转移概率( P s s ′ a P_{ss'}^{a} Pss′a),这是执行某一行为 a a a,从一个状态 s s s转移到另一个状态 s ′ s' s′的概率
- 奖励概率( R s s ′ a R_{ss'}^{a} Rss′a),这是智能体执行某一行为 a a a,从一个状态 s s s转移到另一个状态 s ′ s' s′所获得奖励的概率
- 折扣因数( γ \gamma γ),它控制着即时奖励和未来奖励的重要性
a. 奖励与回报
在强化学习环境中,一个智能体通过执行行为并从一个状态转移到另一个状态来与环境交互。根据其所执行的行为,接收到相应的奖励。奖励只不过是一个数值,比如,执行好的行为,则奖励为+1;执行差的行为,则奖励为-1。确定一个行为好坏的方式是:在迷宫游戏中,好的行为就是智能体能够向前运动而不会撞到迷宫的墙壁,而坏的行为是智能体运动导致装上迷宫墙壁。
智能体试图使得从环境中获得的总奖励(累计奖励)最大化,而不是即时奖励。智能体从环境中获得的总奖励(累计奖励)最大化,而不是即时奖励。智能体从环境中获得的奖励总额称为回报。因此,智能体所获得的奖励总额(回报)可计算如下:
R t = r t + 1 + r t + 2 + ⋅ ⋅ ⋅ + r T R_{t}=r_{t+1}+r_{t+2}+···+r_{T} Rt=rt+1+rt+2+⋅⋅⋅+rT
式中, r t + 1 r_{t+1} rt+1是智能体在执行行为 a 0 a_{0} a0使得从一个状态转移到另一个状态过程中在时间步