Actor Critic
Critic
- Critic : 用来判断 actor θ 在 observing s (并采取 action a) 的条件下,情势的好坏
- Value function : 用来预测 actor θ 在 observing s 的条件下,接下来能获得的总奖励值
- Critic 与 Value function 会随着 Actor 不同而不同,举例来说:
- 厉害的 Actor 在看到很多外星人时,判断情势是好的 (因为可以杀很多怪来得分)
- 弱小的 Actor 在看到很多外星人时,判断情势是坏的 (因为很容易被外星人杀死)
How to Estimate Value function ?
- Monte-Carlo (MC) 方法
- 多次观察并记录 Actor 与环境的互动,得到多个
- 训练后,努力让 接近
- 考虑到 s 的长期影响
- Temporal-difference (TD) 方法
- 多次观察并记录 Actor 与环境的互动,得到多个
- 推导可得出
- 训练后,努力让 接近
- 不考虑 s 的长期影响
Actor Critic
- 在前面的课程中提到,每个 , 所得到的累计奖励 都需要透过一个标准值 b 来正规化
- 当我们有了 critic 之后,就可以计算出 ,并将此数值拿来作为标准值
- 在观察到 之后,Actor 的行为 带有随机性,有多种可能的行为
- 预测的,其实是这些可能的行为后续的累积奖励期望值
- 当 Actor 选择了行为 ,使得标准化奖励 - > 0,则表示这个行为优于平均
Advantage Actor Critic
- 上面的做法,累计奖励 的值,是单次取样得到的结果
- 单次采样的问题是,从 → → ? 的过程是带有随机性的,采样到的类机奖励差异很大,也不具代表性
- 其实可以使用 critic,将累计奖励 的值改写成
- 如此一来就是采用 未来所有可能行为的累积期望值,而不是单次结果
Tips of Actor-Critic
- 对于 Actor 与 Critic,模型的输入都是 s
- 对于 s 的理解,应该是需要相似的,因此部份网络结构可以共享