datawhale强化学习打卡第二、三章

源中阮

已于 2022-07-22 22:24:25 修改

阅读量396

点赞数

文章标签： python 深度学习机器学习 pytorch 人工智能

于 2022-07-15 22:49:27 首次发布

本文链接：https://blog.csdn.net/oHuXing1/article/details/125799587

版权

马尔可夫决策过程

MDP

马尔可夫决策过程

1.马尔科夫链及马尔可夫奖励过程

Markov Property

如果一个状态转移是符合马尔可夫的，那就是说一个状态的下一个状态只取决于它当前状态，而跟它当前状态之前的状态都没有关系。

Markov Process/Markov Chain

在这里插入图片描述
可以用状态转移矩阵(State Transition Matrix) P 来描述状态转移

Markov Reward Process(MRP)

马尔可夫奖励过程(Markov Reward Process, MRP) 是马尔可夫链再加上了一个奖励函数。奖励只当其变换到某一个状态的时候，可以获得的结果。同时，定义一些概念：

1.Horizon 是指一个回合的长度（每个回合最大的时间步数），它是由有限个步数决定的。
2.Return(回报) 说的是把奖励进行折扣后所获得的收益。Return 可以定义为奖励的逐步叠加，如下式所示：
在这里插入图片描述
这里有一个叠加系数，越往后得到的奖励，折扣得越多。这说明我们其实更希望得到现有的奖励，未来的奖励就要把它打折扣。（这里容易使人联想到其在金融股票投资等的应用，如等一个月赚1000元与等一年赚2w，前者更能够被接受。）
Discount factor 可以作为强化学习 agent 的一个超参数来进行调整，然后就会得到不同行为的 agent。