李宏毅深度强化学习- Actor-Critic
李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071
李宏毅深度强化学习笔记(一)Outline
李宏毅深度强化学习笔记(二)Proximal Policy Optimization (PPO)
李宏毅深度强化学习笔记(三)Q-Learning
李宏毅深度强化学习笔记(五)Sparse Reward
李宏毅深度强化学习笔记(六)Imitation Learning
李宏毅深度强化学习课件
Asynchronous Advantage Actor-Critic (A3C)
回顾 – Policy Gradient
先对policy gradient进行回顾,只需要记得几个要点:
- 给定某个state采取某个action的概率
- 考虑到行动输出的概率和为一,为了保证reward越大的有更大的概率被sample到,需要加上baseline b
- 考虑到当先action对过去的reward没有影响,从当前时间点开始进行reward的累加
- 考虑到时间越久,当前action对后期reward的影响越小,添加折扣系数 γ \gamma γ
由于无法sample到如此多的G,因此我们引入了Q-learning
回顾 – Q-Learning
Q-learning部分主要记住以下几个点:
状态价值函数 V π ( s ) V^\pi(s) Vπ(s)(state value function,表示当使用某个actor时,观察到state之后预计会得到的累积reward)
状态行动价值函数 Q π ( s , a ) Q^\pi(s, a) Qπ(s,a)(state-action value function,当使用某个actor与环境互动时,在某个state采取某个action预计会得到的累积reward)