本文内容源自百度强化学习 7 日入门课程学习整理
感谢百度 PARL 团队李科浇老师的课程讲解
目录
4.目标网络target network+经验回放replay memory
1.离散动作VS连续动作
- 离散的动作:游戏的操作动作可数,例:向上下左右
- 连续动作:输出的动作不可数 例:推锤子推的力,转方向盘的角度,四轴飞行器的电压
- 在离散的动作场景下,有几个离散动作,就输出几个概率值。
- 在连续的动作场景下,输出具体的浮点数代表确定性策略。
- 随机性策略:当输入某一个状态s,采取某一个动作a可能性具有一定的概率,
- 确定性策略:没有概率的影响,输入同样的状态s,输出同样的动作a
- 离散动作里面,输出所有动作的概率总和为1。
- 连续动作的输出,在输出层加一层tanh,把输出限制到[-1,1],再通过缩放,对应到实际动作。
2.DDPG
- Policy Gradient:用到的是策略网络,每一步都更新的policy网络。
- Deterministic:DDPG输出的是确定的动作,用于连续动作的环境。
- DDPG是为了让DQN的应用扩展到连续动作空间,在DQN的基础上加上了策略网络,用来