强化学习相关知识点总结

最新推荐文章于 2024-05-22 15:52:08 发布

lankou~

最新推荐文章于 2024-05-22 15:52:08 发布

阅读量135

点赞数

文章标签：强化学习

本文链接：https://blog.csdn.net/m0_46424217/article/details/132599107

版权

1) on policy and off policy

on-policy: 行动策略和目标策略是同一个策略
off-policy: 行动策略和目标策略不是同一个策略

典型的off-policy算法： DQN族、DDPG族、SAC等，凡是包含经验回放的，可以说都是异策算法。因为在更新策略的时候，会从经验回放中取出数据来对现在的策略进行更新，而这些数据是先前的策略生成的，也就是说，生成数据的策略和当前要更新的策略是不同的策略，即off-policy。

典型的on policy 算法：原始AC、A3C、PPO等，这些算法在更新时都需要用当前策略去获得一个trajectory，然后用这个trajectory数据来更新当前策略，即on-policy。

2）基于值和基于策略

在基于策略的强化学习方法中，智能体会制定一套动作策略（确定在给定状态下需要采取何种动作），并根据这个策略进行操作。强化学习算法直接对策略进行优化，使制定的策略能够获得最大的奖励。
而在基于价值的强化学习方法中，智能体不需要制定显式的策略，它维护一个价值表格或价值函数，并通过这个价值表格或价值函数来选取价值最大的动作。基于价值迭代的方法只能应用在不连续的、离散的环境下（如围棋或某些游戏领域），对于动作集合规模庞大、动作连续的场景（如机器人控制领域），其很难学习到较好的结果（此时基于策略迭代的方法能够根据设定的策略来选择连续的动作）。
基于价值的强化学习算法有Q学习（Q-learning）、 Sarsa 等，而基于策略的强化学习算法有策略梯度（Policy Gradient，PG）算法等。
此外，演员-评论员算法同时使用策略和价值评估来做出决策。其中，智能体会根据策略做出动作，而价值函数会对做出的动作给出价值，这样可以在原有的策略梯度算法的基础上加速学习过程，取得更好的效果。

3） Actor-Critic架构

https://www.cnblogs.com/pinard/p/10272023.html
https://blog.csdn.net/zong596568821xp/article/details/78021440

在这里插入图片描述

一句话概括 Actor Critic 方法:结合了 Policy Gradient (Actor) 和 Function Approximation (Critic) 的方法. Actor 基于概率选行为, Critic 基于 Actor 的行为评判行为的得分, Actor 根据 Critic 的评分修改选行为的概率。

在这里插入图片描述