Deep Reinforcement Learning（深度强化学习分类）

最新推荐文章于 2024-09-06 03:42:22 发布

Ordinary_yfz

最新推荐文章于 2024-09-06 03:42:22 发布

阅读量1.7k

点赞数

分类专栏：科研之路：Mobile+AI+game theory 文章标签：强化学习

本文链接：https://blog.csdn.net/csyifanZhang/article/details/104507473

版权

科研之路：Mobile+AI+game theory 专栏收录该内容

27 篇文章 51 订阅

订阅专栏

强化学习分类

Policy-based or value-based

强化学习两大类，Policy-Based(Policy Gradients) Value-Based(Q-Learning)。Policy-Based直接预测环境状态下应采取Action，Value-Based预测环境状态下所有Action期望价值(Q值)，选择Q值最高Action执行。Value-Based适合少量离散取值Action，Policy-Based适合Aciton种类多或连续取值Action环境。Policy Network、Value Network。
Policy Gradients方法训练策略网络。模型通过学习Action在Environment获得反馈，用梯度更新模型参数。训练过程，模型接触到好Action及高期价值，和差Action及低期望价值。通过样本学习，模型逐渐增加选择好Action概率，降低选择坏Action概率，完成策略学习。直接学习当前环境应该采取策略，如选择Actionc概率，或Action具体数值。策略网络是End-to-End(端对端)方法，直接产生最终策略。
根据环境状态和采取行动预测后续环境状态，利用信息训练强化学习模型，是Model-Based RL。Model-Free RL直接对策略或Action期望价值预测，计算效率高。复杂环境，主要用Model-Free RL，供给更多样本训练，弥补没有Model预测环境状态问题。
在这里插入图片描述

Policy-Based

Actor：训练的是策略网络，输入state，输出采取每个策略的概率，通过梯度下降的方式进行训练，不断得提高reward比较高的行为出现的概率、

outline

在这里插入图片描述

parameter update

参数更新可以略过，稍微有点复杂，总的来说每个状态 $\tau$ 对应这一个reward $R(\tau)$ ,和一个转移到这个状态的概率 $p$ ，在与环境interaction的时候，如果这个reward比较大，那么我们提高这个 $\tau$ 发生的概率，否则减小他。
在这里插入图片描述

Value-based(critic)

Critic：是一个评估者，预测环境状态下所有Action期望价值(Q值)，选择Q值最高Action执行。
在这里插入图片描述
帅的人作为一个critic，起到评估actor的作用，而value function取决于两件事情，actor本身和目前的state。就图而言，当阿光比较弱的时候，大马步飞不是一步好棋（actor=弱，state=大马），但是当actor变强之后，这一步却可能是好棋。