强化学习 by 李宏毅(个人记录向)

P2Proximal Policy Optimization (PPO)

importance sampling:importance sampling

On-policy -> Off-policy
Gradient for update:
Gradient fro update

Objective function
ppo function

*KL divergence(KL距离) 常用来衡量两个概率分布的距离

E(st,at)πθ E ( s t , a t ) ∼ π θ ′

Q-learning

critic 评价action的效果
Monte-Carlo(MC) based approach
Temporal-difference(TD) approach

Vπ(st)=Vπ(st+1)+rt V π ( s t ) = V π ( s t + 1 ) + r t

这里写图片描述
*mc td分别代表什么

Target Network
Target Network


Exploration Epsilon Greedy


Replay Buffer
减少与环境做互动的时间


Typical Q-learning Algorithm
Typical Q-learning Algorithm

Tips of Q-Learning

Double DQN
Q-Value总是被高估,因为target总是被设得太高

Double DQN

Dueling DQN
修改了网络的架构,分为V+A = Q


Prioritized Reply
Prioritized Reply


Multi-step
Multi-step


Q-Learning for Continuous Actions
Q-Learning不容易处理连续的行为,如自动驾驶,机器人行动
Using gradient ascent to solve the optimization problem
Continuous Action Solution


policy-based(ppo)
value-based(Q-learning)


Asynchronous Advantage Actor-Critic

Review Policy Gradient

R¯¯¯¯θ1Nn=1Nt=1Tn(t=tTnγttrntb)logpθ(ant|snt) ∇ R ¯ θ ≈ 1 N ∑ n = 1 N ∑ t = 1 T n ( ∑ t ′ = t T n γ t ′ − t r t ′ n − b ) ∇ l o g p θ ( a t n | s t n )

γttrntbrnt+Vπ(snt+1) γ t ′ − t r t ′ n − b ≈ r t n + V π ( s t + 1 n )


Actor-Critic
Actor-Critic
Advantage Actor Critic

Pathwise Derivative Policy Gradient

Pathwise Gradient

这里写图片描述

Sparse Reward

agent多数情况下,无法得到reward

Reward Shaping:

ICM = instrinsic curiosity module 鼓励冒险
instrinsic curiosity module
根据 atst a t s t ,Network1预测 st+1 s t + 1 与真正的 st+1 s t + 1 差距,即采取某action,无法预测接下来的结果那么鼓励该操作
提取需要的特征,通过Network2仍然得到正确 at a t ,说明过滤掉是无用的信息

Curriculum Learning

Reverse Curriculum Generation根据得分反推
Hierarchical RL分级强化学习


Imitation Learning

Behavior Cloning

  • 存在局限性,无法收集极端情况下的数据
  • 学习无用的行为

Inverse RL
Inverse RL
IRL训练专家的数据,得到正确的Reward Funciton;转而,RL利用Reward Funciton得到optimal acto,类似于GAN。


应用:自驾车

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值