深度强化学习:deep reinforcement learning
自动驾驶:autonomous driving
论文:《Deep Reinforcement Learning for Autonomous Driving》
概要:文章使用DDPG算法在TORCS模拟器上训练了一个agent,在文章设定的环境下表现良好
深度确定性策略梯度(DDPG)算法:使用确定性而不是随机动作函数
在确定性策略梯度下,从状态空间到动作空间的映射是固定的,因此我们不需要在整个动作空间上积分。因此,确定性策略梯度算法需要更少的数据样本来收敛于随机策略梯度
为了提高Agent的稳定性,我们采用经验回放的方法来打破数据样本之间的依赖关系。在DDPG算法中使用了一个目标网络,这意味着我们为演员和评论家网络创建了一个副本。然后,这些目标网络用于提供目标值。然后,这些目标网络的权重以固定频率更新。对于演员和评论家网络,参数w和θ分别更新为
DDPG算法在TORCS上的应用:
英文原文:Using Keras and Deep Deterministic Policy Gradient to play TORCS | Ben Lau (yanpanlau.github.io)
中文翻译: