[課程筆記] 機器學習2021(李弘毅) L31.概述增強式學習(三)

Actor Critic

Critic

  • Critic : 用来判断 actor θ  在 observing s (并采取 action a) 的条件下,情势的好坏
  • Value function V^{\theta}(s) : 用来预测 actor θ  在 observing s 的条件下,接下来能获得的总奖励值
  • Critic 与 Value function 会随着 Actor 不同而不同,举例来说:
    • 厉害的 Actor 在看到很多外星人时,判断情势是好的 (因为可以杀很多怪来得分)
    • 弱小的 Actor 在看到很多外星人时,判断情势是坏的 (因为很容易被外星人杀死)

How to Estimate Value function ?

  •  Monte-Carlo (MC) 方法
    • 多次观察并记录 Actor 与环境的互动,得到多个 s_x, {G_x}' 
    • 训练后,努力让  V^{\theta}(s_x) 接近 {G_x}'
    • 考虑到 s 的长期影响
  • Temporal-difference (TD) 方法
    • 多次观察并记录 Actor 与环境的互动,得到多个 s_t, s_{t+1}, r_t
    • 推导可得出 V^{\theta}(s_t) - \gamma V^{\theta}(s_{t+1}) = r_t
    • 训练后,努力让  V^{\theta}(s_t) - \gamma V^{\theta}(s_{t+1})  接近  r_t
    • 不考虑 s 的长期影响

Actor Critic

  • 在前面的课程中提到,每个 s_Na_N  所得到的累计奖励 G'_N 都需要透过一个标准值 b 来正规化
  • 当我们有了 critic 之后,就可以计算出 V^{\theta}(s_N),并将此数值拿来作为标准值
  • 在观察到 s_N 之后,Actor 的行为 a_N带有随机性,有多种可能的行为
  • V^{\theta}(s_N) 预测的,其实是这些可能的行为后续的累积奖励期望值
  • 当 Actor 选择了行为 a_t ,使得标准化奖励 G'_N  - V^{\theta}(s_N)> 0,则表示这个行为优于平均

Advantage Actor Critic

  • 上面的做法,累计奖励 G'_N 的值,是单次取样得到的结果
  • 单次采样的问题是,从 s_t → s_{t+1} → ? 的过程是带有随机性的,采样到的类机奖励差异很大,也不具代表性
  • 其实可以使用 critic,将累计奖励 G'_N 的值改写成 r_t + V^{\theta}(s_{t+1})
  • 如此一来就是采用 s_{t+1} 未来所有可能行为的累积期望值,而不是单次结果

  Tips of Actor-Critic 

  • 对于 Actor 与 Critic,模型的输入都是 s
  • 对于 s 的理解,应该是需要相似的,因此部份网络结构可以共享

 RFL 其他做法

参考

  1. 李弘毅老師 -【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (三)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值