1 RL历程发展(未完)

1 历程发展

##1.1 Mutli-Bandit

1.2 Model-based

MDP建模

算法:Policy Iteration和Value Iteration

1.3 Model-free(Value function)

核心思想都是如何近似ValueFunction

1.3.1 Monte Carlo

1.3.2 TD

1.3.3 TD(λ)

1.3.4 Sarsa和Q-learning

1.3.5 DQN

神经网络的进入

1.4 Model-free(policy gradient)

直接用神经网络拟合policy

1.4.1 PG

优点:直接输出action,即使是连续动作空间也可以

缺点:只能周期性更新

1.4.2 Actor-critic

critic拟合一个State Value function

Actor预测的是行为的概率,根据不同的action的分布概率选取动作

优点:可以单步更新,收敛更快,Actor输出action,critic给出action的评价

缺点:critic网络不收敛

1.4.3 DDPG

[Deep] [deterministic (Policy gradient)],连续动作更有效的学习

结构类似DQN,输出一个确定的动作,不是概率,每个

eval net实时更新,target net异步更新

优点:解决了Actor-Critic中critic网络不收敛的问题

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-usho7U3W-1607065011982)(/Users/linwenrui/Desktop/我的坚果云/1 历程发展.assets/截屏2020-08-09 下午6.44.06.png)]

1.4.4 A3C

Asynchronous Advantaged Actor Critic

很有趣的框架,On-policy

1.4.5 PPO

Proximal Policy Optimization,基于Actor-Critic架构

原来的网络对于lr很敏感,大了容易躁动,小的耗时太久,但是PPO限制了new policy的更新幅度,使得对step size不是那么敏感。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值