文章目录
1. 离散动作与连续动作的区别
(1)离散动作与连续动作
- 离散动作:动作空间有限。
- 连续动作:连续动作空间。
对于连续的动作空间,Q学习、DQN等算法没有办法处理。
(2)随机性策略和确定性策略
- 随机性策略:输入某一个状态s,采取某一个动作的可能型不是百分百。
①一般的,在网络最后加上softmax层确保输出是动作概率。 - 决定性策略:输入某个状态s,会选择相同的动作。
②一般可以在输出层加一层tanh,把输出限制到[-1,1]之间。将所得值再进行扩放变化。
2. DDPG
DDPG是DQN与确定性策略的结合。
- DDPG是DQN的扩展版本,可以扩展到连续动作空间。
- DDPG在DQN基础上加了一个策略网络来直接输出动作值,再使用Q网络评估动作价值。
- Q网络参数用w表示,策略网络参数用 θ \theta θ表示。
(1)演员-评论员结构
- 策略网络担任演员,负责输出动作