【强化学习】部分基础知识(DPG 1)

Method

Value-Based

step1: 将神经网络作为actor

step2: 衡量actor的好坏

step3: 选择最好的actor

Policy-Based

Critic: 用来评估actor
State value function(V): 在看到某一个状态state的时候预期能够得到的累积收益Estimation of V:

  1. Monte-Carlo(MC): critic会观察actor π \pi π 玩游戏的整个过程, 具有不确定性,较大的方差,但结果无偏
  2. Temporal-difference(TD): 只计算状态与状态之间的收益reward,具有较小的方差,但是结果可能造成偏误
  3. State action value function: 基于状态state和行动action得到收益reward
  4. Q-learning: actor π \pi π和环境做互动,然后不断用一个更好的 π ′ \pi' π来更新 π \pi π

Actor-Critic

Actor

actor网络基于Policy Gradients,输入为state,输出为采取各个action的概率(action需要是离散的)

Critic

critic网络基于value-based,输入为state和action,输出为value,即对Q(s,a)的估值

使用actor估计出来的action在critic中估值,并用估计出来的Q(s,a)对actor网络优化

Policy

强化学习中一般有两个策略,行为策略(Behavior Policy)和目标策略(Target Policy),我们使用行为策略在训练时做决策,而目标策略则是训练结束后拿去应用的策略。

On-Policy

学习到的agent以及和环境进行互动的agent是同一个agent

Sarsa

使 用 ϵ − g r e e d y 算 法 选 择 a c t i o n   a ′ Q ( s , a ) = Q ( s , a ) + α [ R ( s , a ) + γ Q ( s ′ , a ′ ) − Q ( s , a ) ] s = s ′ ; a = a ′ 使用\epsilon-greedy算法选择action\ a'\\ Q(s,a)=Q(s,a)+\alpha[R(s,a)+\gamma Q(s',a')-Q(s,a)]\\ s=s';a=a' 使ϵgreedyaction aQ(s,a)=Q(s,a)+α[R(s,a)+γQ(s,a)Q(s,a)]s=s;a=a

Off-Policy

学习到的agent以及和环境进行互动的agent是不同的agent

Q-learning

Q ( s , a ) = Q ( s , a ) + α [ R ( s , a ) + γ max ⁡ a ′ { Q ( s ′ , a ′ ) } − Q ( s , a ) ] s = s ′ Q(s,a)=Q(s,a)+\alpha[R(s,a)+\gamma \max_{a'}\left\{Q(s',a') \right\}-Q(s,a)]\\ s=s' Q(s,a)=Q(s,a)+α[R(s,a)+γamax{Q(s,a)}Q(s,a)]s=s

可以看作是使用了另外一个greedy的policy作为target policy

DQN

DQN作为一个例子来说更加直观,使用两个critic网络进行估值,其中target网络固定不变,训练main网络,在一定次数的训练后再同步两个网络,这时候可以明显看出行为策略与目标策略是不相同的。

本文内容主要基于李宏毅老师的机器学习基础课程,如果想要详细了解可以直接去观看视频

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值