强化学习算法学习

最新推荐文章于 2024-01-02 01:21:13 发布

濒临秃头的少女

最新推荐文章于 2024-01-02 01:21:13 发布

阅读量990

点赞数

文章标签：算法强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/selinaliujunlan/article/details/119297656

版权

本文介绍了强化学习的Policy-based、Value-based和Actor-Critic算法，重点讲解了Policy Gradient（PG）算法的核心思想，即通过优化策略使回报最大。接着，讨论了TRPO在策略优化上的改进，保证了策略的单调优化。最后，阐述了PPO算法，它提高了样本利用率，具有较好的鲁棒性。PG、TRPO和PPO都是强化学习中重要的策略优化方法。

摘要由CSDN通过智能技术生成

我们可以把强化学习算法分为三类：Policy-based、Value-based和将两者结合的算法（如Actor-Critic）.

Policy-based:输入状态，输出下一动作的概率。如Policy Gradient。

Value-based：输入状态，输出动作的价值。如Q-learning、DQN、Sarsa。

AC架构：输入状态，Actor网络输出动作，Critic根据动作输出对应的价值，将价值传递给Actor网络，来改变动作的概率。如A3C、A2C。

我们也可以把强化学习算法分为两类：On-policy和Off-policy.

On-policy:行动策略和目标策略是同一个，更新价值的策略是既定策略。Sarsa，PG...

Off-policy：行动策略和目标策略不是同一个，更新价值的策略是新策略。Q-learning、TRPO、PPO、DQN...

1、PG算法

贡献：在value-base为主导的世界里，提出了policy-base这一类算法分支。

核心思想：先随机选动作，若这个动作使得最终的回报变大，则增加这个动作的概率；反之减小这个动作的概率。

做法：我们用一个神经网络来代表策略，这个神经网络的输入是状态，输出是动作被选中的概率。用连续函数的优化方法（如梯度上升，优化的目标是使回报最大）来求最优策略。

最低0.47元/天解锁文章

濒临秃头的少女

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
强化学习算法学习

我们可以把强化学习算法分为三类：Policy-based、Value-based和将两者结合的算法（如Actor-Critic）.Policy-based:输入状态，输出下一动作的概率。如Policy Gradient。Value-based：输入状态，输出动作的价值。如Q-learning、Sarsa。AC：输入状态，Actor网络输出动作，Critic根据动作输出对应的价值，将价值传递给Actor网络，来改变动作的概率。如A3C、A2C。我们也可以把强化学习算法分为两类：On-polic
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。