1 RL历程发展(未完)

最新推荐文章于 2022-07-30 11:09:10 发布

jjyy2333

最新推荐文章于 2022-07-30 11:09:10 发布

阅读量760

点赞数

分类专栏： Reinforcement 文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jjyy2333/article/details/110643398

版权

Reinforcement 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1 历程发展

##1.1 Mutli-Bandit

1.2 Model-based

MDP建模

算法：Policy Iteration和Value Iteration

1.3 Model-free（Value function）

核心思想都是如何近似ValueFunction

1.3.1 Monte Carlo

1.3.2 TD

1.3.3 TD(λ)

1.3.4 Sarsa和Q-learning

1.3.5 DQN

神经网络的进入

1.4 Model-free（policy gradient）

直接用神经网络拟合policy

1.4.1 PG

优点：直接输出action，即使是连续动作空间也可以

缺点：只能周期性更新

1.4.2 Actor-critic

critic拟合一个State Value function

Actor预测的是行为的概率，根据不同的action的分布概率选取动作

优点：可以单步更新，收敛更快，Actor输出action，critic给出action的评价

缺点：critic网络不收敛

1.4.3 DDPG

[Deep] [deterministic (Policy gradient)]，连续动作更有效的学习

结构类似DQN，输出一个确定的动作，不是概率，每个

eval net实时更新，target net异步更新

优点：解决了Actor-Critic中critic网络不收敛的问题

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-usho7U3W-1607065011982)(/Users/linwenrui/Desktop/我的坚果云/1 历程发展.assets/截屏2020-08-09 下午6.44.06.png)]

1.4.4 A3C

Asynchronous Advantaged Actor Critic

很有趣的框架，On-policy

1.4.5 PPO

Proximal Policy Optimization，基于Actor-Critic架构

原来的网络对于lr很敏感，大了容易躁动，小的耗时太久，但是PPO限制了new policy的更新幅度，使得对step size不是那么敏感。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
1 RL历程发展(未完)

1 历程发展##1.1 Mutli-Bandit1.2 Model-basedMDP建模算法：Policy Iteration和Value Iteration1.3 Model-free（Value function）核心思想都是如何近似ValueFunction1.3.1 Monte Carlo1.3.2 TD1.3.3 TD(λ)1.3.4 Sarsa和Q-learning1.3.5 DQN神经网络的进入1.4 Model-free（policy gradient）直接用神经
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。