[課程筆記] 機器學習2021(李弘毅) L31.概述增強式學習(三)

傷心太平洋

已于 2022-03-08 23:34:51 修改

阅读量644

点赞数

分类专栏：線上課程文章标签：深度学习

于 2022-03-08 23:33:13 首次发布

本文链接：https://blog.csdn.net/JYLin_master/article/details/123251280

版权

7 篇文章 1 订阅

订阅专栏

Actor Critic

Critic : 用来判断 actor θ 在 observing s (并采取 action a) 的条件下，情势的好坏
Value function $V^{\theta}(s)$ : 用来预测 actor θ 在 observing s 的条件下，接下来能获得的总奖励值
Critic 与 Value function 会随着 Actor 不同而不同，举例来说:
- 厉害的 Actor 在看到很多外星人时，判断情势是好的 (因为可以杀很多怪来得分)
- 弱小的 Actor 在看到很多外星人时，判断情势是坏的 (因为很容易被外星人杀死)

Monte-Carlo (MC) 方法
- 多次观察并记录 Actor 与环境的互动，得到多个 $s_x, {G_x}'$
- 训练后，努力让 $V^{\theta}(s_x)$ 接近 ${G_x}'$
- 考虑到 s 的长期影响
Temporal-difference (TD) 方法
- 多次观察并记录 Actor 与环境的互动，得到多个 $s_t, s_{t+1}, r_t$
- 推导可得出 $V^{\theta}(s_t) - \gamma V^{\theta}(s_{t+1}) = r_t$
- 训练后，努力让 $V^{\theta}(s_t) - \gamma V^{\theta}(s_{t+1})$ 接近 $r_t$
- 不考虑 s 的长期影响