【笔记2-3】李宏毅深度强化学习笔记（三）Q-Learning

最新推荐文章于 2024-03-21 22:33:01 发布

jessie_weiqing

最新推荐文章于 2024-03-21 22:33:01 发布

阅读量1.2w

点赞数 39

分类专栏：笔记李宏毅深度强化学习笔记文章标签：强化学习李宏毅 reinforcement learning critic Q learning

本文链接：https://blog.csdn.net/cindy_1102/article/details/87907470

版权

李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071

Q-Learning介绍

Q-learning – value-base

什么是Critic:
critic并不直接决定采取什么行动，但是会用来衡量一个actor的好坏
critic的输出值取决于被评估的actor

状态价值函数 $V^\pi(s)$ :
对于actor $\pi$ , 给定状态s，期望得到的累积收益，该值取决于状态s和actor $\pi$

如何估计状态价值函数 $V^\pi(s)$ :

基于蒙特卡洛的方法Monte-Carlo (MC)
critic 观察 $\pi$ 进行游戏的整个过程, 直到该游戏回合结束再计算累积收益（通过比较期望收益和实际收益G，来训练critic）
Tip: 有时一个游戏回合可能会很长，这个等到游戏回合结束再计算收益的方法训练起来会很慢，因此引入另外一种方法 Temporal-difference（TD）
时序分差方法Temporal-difference (TD)
时序分差算法计算的是两个状态之间的收益差. （通过比较期望差异与实际差异r之间的差别来训练critic）

MC vs. TD
由于从游戏中获取的收益是一个随机变量，而MC方法是各状态下收益的加总，相对而言，MC方法得到的实际累积收益G的方差会很大.
相比较而言，TD只考虑状态之间的收益差，因此方差较小，但是由于没有从整体收益进行考虑，因此该方法的准确性不能得到保证

状态-行动价值方程 (another critic) $Q^\pi(s, a)$ :
对于给定的actor $\pi$ , 在状态s采取行动a预计能够得到的累计收益

更好的 $\pi'$ 的含义是，对于所有的状态s，一定有 “采取 $\pi'$ 获得的状态价值函数不小于 $\pi$ 得到的状态价值函数 ”，那么 $\pi'$ 就是由对Q求argmax返回的actor
在这里插入图片描述
Tips:

关注

专栏目录