1 历程发展
##1.1 Mutli-Bandit
1.2 Model-based
MDP建模
算法:Policy Iteration和Value Iteration
1.3 Model-free(Value function)
核心思想都是如何近似ValueFunction
1.3.1 Monte Carlo
1.3.2 TD
1.3.3 TD(λ)
1.3.4 Sarsa和Q-learning
1.3.5 DQN
神经网络的进入
1.4 Model-free(policy gradient)
直接用神经网络拟合policy
1.4.1 PG
优点:直接输出action,即使是连续动作空间也可以
缺点:只能周期性更新
1.4.2 Actor-critic
critic拟合一个State Value function
Actor预测的是行为的概率,根据不同的action的分布概率选取动作
优点:可以单步更新,收敛更快,Actor输出action,critic给出action的评价
缺点:critic网络不收敛
1.4.3 DDPG
[Deep] [deterministic (Policy gradient)],连续动作更有效的学习
结构类似DQN,输出一个确定的动作,不是概率,每个
eval net实时更新,target net异步更新
优点:解决了Actor-Critic中critic网络不收敛的问题
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-usho7U3W-1607065011982)(/Users/linwenrui/Desktop/我的坚果云/1 历程发展.assets/截屏2020-08-09 下午6.44.06.png)]
1.4.4 A3C
Asynchronous Advantaged Actor Critic
很有趣的框架,On-policy
1.4.5 PPO
Proximal Policy Optimization,基于Actor-Critic架构
原来的网络对于lr很敏感,大了容易躁动,小的耗时太久,但是PPO限制了new policy的更新幅度,使得对step size不是那么敏感。