深度强化学习之自动驾驶论文阅读(一)

深度强化学习:deep reinforcement learning

自动驾驶:autonomous driving

论文:《Deep Reinforcement Learning for Autonomous Driving》

概要:文章使用DDPG算法在TORCS模拟器上训练了一个agent,在文章设定的环境下表现良好

深度确定性策略梯度(DDPG)算法:使用确定性而不是随机动作函数

在确定性策略梯度下,从状态空间到动作空间的映射是固定的,因此我们不需要在整个动作空间上积分。因此,确定性策略梯度算法需要更少的数据样本来收敛于随机策略梯度

为了提高Agent的稳定性,我们采用经验回放的方法来打破数据样本之间的依赖关系。在DDPG算法中使用了一个目标网络,这意味着我们为演员和评论家网络创建了一个副本。然后,这些目标网络用于提供目标值。然后,这些目标网络的权重以固定频率更新。对于演员和评论家网络,参数w和θ分别更新为

DDPG算法在TORCS上的应用:

英文原文:Using Keras and Deep Deterministic Policy Gradient to play TORCS | Ben Lau (yanpanlau.github.io)

中文翻译:使用Keras和DDPG玩赛车游戏(自动驾驶) - 简书 (jianshu.com)

源代码:GitHub - yanpanlau/DDPG-Keras-Torcs: Using Keras and Deep Deterministic Policy Gradient to play TORCS

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值