强化学习基本概念

最新推荐文章于 2024-04-14 20:20:35 发布

war3gu

最新推荐文章于 2024-04-14 20:20:35 发布

阅读量167

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/war3gu/article/details/90671507

版权

强化学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

Value-Based（或Q-Learning）和Policy-Based（或Policy Gradients）是强化学习中最重要的两类方法，区别在于
Value-Based是预测某个State下所有Action的期望价值（Q值），之后通过选择最大Q值对应的Action执行策略，适合仅有少量离散取值的Action的环境；
Policy-Based是直接预测某个State下应该采取的Action，适合高维连续Action的环境，更通用；

根据是否对State的变化进行预测，RL又可以分为model-based和model-free：
model-based，根据State和采取的Action预测接下来的State，并利用这个信息训练强化学习模型（知道状态的转移概率）；
model-free，不需对环境状态进行任何预测，也不考虑行动将如何影响环境，直接对策略或Action的期望价值进行预测，计算效率非常高。
因为复杂环境中难以使用model预测接下来的环境状态，所以传统的DRL都是基于model-free。

policy gradient 的最后一步的公式理解起来有点麻烦，因为它表示，更新一次actor的参数，需要等跑完m个trajectory之后，总共n step之后，才能更新一次。而这一次的梯度，由所有step的梯度和那一step所属的trajectory的reward加权得到。某一step的梯度，可以使用一般的backpropogation得到，也就是actor的模型是已经设定好的，需要根据输入,目标函数和当前模型参数，得到当前模型参数的上升梯度，这和CNN类似，模型参数，输入，目标函数，进而得到当前模型参数的梯度。