深度强化学习之自动驾驶论文阅读（二）

寒霜似karry

已于 2024-08-24 09:16:13 修改

阅读量587

点赞数 4

文章标签：论文阅读

于 2024-08-20 20:31:57 首次发布

本文链接：https://blog.csdn.net/qq_57104181/article/details/141365972

版权

论文《A Deep Q-Network Reinforcement Learning-Based Model for Autonomous Driving》

仿真平台：Carla

概要：

提出一个使用深度Q网络（DQN）和长短时记忆（LSTM）的端对端自动驾驶系统

本文的主要贡献：第一，一个ADV模型与一个新的观察系统包括RGB（红，绿色，蓝色）图像信息，从面向前方的摄像头，车辆速度，车辆角度相对于道路中心作为观察输入数据。输出包括转向、制动和加速值的组合。第二，LSTM-DQN模型，用于在城市环境中的模拟自动驾驶环境中学习特定的驾驶行为。

本文提出的ADS的结构如下图所示：

将网络部分放大如下：

相关算法介绍：

DQN算法：

主要步骤：1、使用缓冲器，所有以前的经验都存储在缓冲器重放中。2、下一个动作由Q函数的最大输出决定。3、损失函数是预测Q值的均方误差以及目标Q值。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

寒霜似karry

关注关注

4
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

深度强化学习之自动驾驶论文阅读（一）

qq_57104181的博客

08-15

376

为了提高Agent的稳定性，我们采用经验回放的方法来打破数据样本之间的依赖关系。在DDPG算法中使用了一个目标网络，这意味着我们为演员和评论家网络创建了一个副本。然后，这些目标网络用于提供目标值。在确定性策略梯度下，从状态空间到动作空间的映射是固定的，因此我们不需要在整个动作空间上积分。因此，确定性策略梯度算法需要更少的数据样本来收敛于随机策略梯度。：文章使用DDPG算法在TORCS模拟器上训练了一个agent，在文章设定的环境下表现良好。深度确定性策略梯度（DDPG）算法：使用确定性而不是随机动作函数。

强化学习自动驾驶论文阅读（一）

weixin_45042545的博客

06-14

3072

（一）paper传送门 Guided Policy Search Model-based Reinforcement Learning for Urban Autonomous Driving （二）背景知识强化学习（RL）---------------------------《Reinforcement Learning：An Introduction》第二版 Gaussian Mixed Model(GMM) --------- https://www.jianshu.com/p/9708bb0676

参与评论您还未登录，请先登录后发表或查看评论

使用深度强化学习的虚拟自动驾驶汽车-研究论文

05-20

在本文中，我们提出了一种深度强化学习方法，以评估虚拟创建的自动驾驶场景的性能。马尔可夫决策过程用于将车辆状态映射到动作。折扣和奖励功能也包含在决策策略中。为了处理导致强化学习的标准不稳定的高维度输入，我们使用了经验重播。为了进一步降低相关性，我们使用迭代更新来定期更新Q值。基于随机目标函数的亚当优化器与整流线性单元激活函数一起用作神经网络中的优化器，有助于进一步优化过程。这款自动驾驶汽车不需要任何带有标签的训练数据即可学习人类的驾驶行为。受现实情况启发，基于动作的奖励功能用于训练车辆。在我们的方法中已经证明，经过多次迭代，虚拟制造的车辆会产生无碰撞运动，并执行与人类相同的驾驶行为。

强化学习自动驾驶论文阅读（四）

weixin_45042545的博客

06-25

1414

（一）paper传送门 Reinforcement Learning with Uncertainty Estimation for Tactical Decision-Making in Intersections （二）背景知识强化学习（RL）-------------------------------《Reinforcement Learning：An Introduction》第二版 Double DQN （DDQN）----------------------https://zhuanlan.

【论文笔记】基于视觉特征提取的强化学习自动驾驶系统

m0_48948682的博客

08-10

1495

自动驾驶；特征提取；变分自编码器；强化学习；

强化学习自动驾驶论文阅读（三）

weixin_45042545的博客

06-21

1425

（一）paper传送门 Explaining Autonomous Driving by Learning End-to-End Visual Attention （二）背景知识强化学习（RL）---------------------------《Reinforcement Learning：An Introduction》第二版模仿学习（IL）-----------------------------https://zhuanlan.zhihu.com/p/25688750?group_id=824

基于深度强化学习的自动驾驶决策方法研究(毕设&课设论文参考).caj

02-02

【1】该资源属于项目论文，非项目源码，如需项目源码，请私信沟通，不Free。【2】论文内容饱满，可读性强，逻辑紧密，用语专业严谨，适合对该领域的初学者、工程师、在校师生等下载使用。【3】文章适合学习借鉴，...

深度强化学习车辆变道保持，轨迹跟踪论文

06-05

深度强化学习在自动驾驶领域中的应用是当前研究的热点之一，本文将从深度强化学习的角度，探讨车辆变道保持和轨迹跟踪问题。为此，我们将深入分析当前自动驾驶领域中的技术栈，探讨深度强化学习在该领域中的应用前景...

强化学习自动驾驶论文阅读（五）

weixin_45042545的博客

07-03

1177

（一）paper传送门 Explanation Augmented Feedback in Human-in-the-Loop Reinforcement Learning （二）背景知识强化学习（RL）-------------------------------------------------《Reinforcement Learning：An Introduction》第二版 Human-in-the-loop reinforcement learning（HRL）------https://i

综述 | 200+参考文献！自动驾驶的多智能体强化学习

最新发布

3D视觉工坊

08-26

624

点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达来源：3D视觉工坊添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，...

最新《智能交通系统的深度强化学习》综述论文

05-06

DQN+LSTM——DRQN的简单解读与实现

m0_63642362的博客

11-17

9712

简单讲解DQRN论文及其基本原理，并用paddle实现

LSTM&DRQN的python实现

weixin_45032780的博客

04-23

3029

LSTM的各种_size&Python实现 1.LSTM模块的实现最近在尝试实现一个简单的LSTMCell，源码中看似只是简单地调用一下： tf.contrib.rnn.BasicLSTMCell() 实际上包含了很多没有弄明白地方。我想把这个学习过程完整地记录一遍。首先，构建LSTM单元需要导入： import tensorflow as tf import numpy as np...

【无标题】

sinat_50757558的博客

03-27

692

基于LSTM预测和深度强化学习的任务卸载在物联网中的高效边缘计算摘要在物联网边缘计算中，任务卸载会导致额外的传输延迟和传输能耗。为了降低任务卸载所需的资源成本，提高服务器资源的利用率，本文将任务卸载问题建模为一个成本最小化的联合决策问题，该问题综合了处理延迟、处理能耗和延迟敏感任务的任务抛出率。针对上述任务卸载决策问题，提出了基于深度强化学习（DRL）和长短时记忆（LSTM）网络的在线预测卸载（OPO）算法。在模型的训练阶段，该算法利用LSTM算法实时预测边缘服务器的负载，有效地提高了DRL算法在卸载过

dqn推荐系统_基于强化学习优化长期用户参与度的推荐系统

weixin_35983453的博客

01-01

769

这篇文章介绍发表在KDD 2019上的论文Reinforcement Learning to Optimize Long-term User Engagement in Recommender Systemsarxiv.org文章主要解决优化用户长期参与度的问题。大多数传统的推荐系统将目标集中在一些实时指标上，比如点击率和转化率。一个好的推荐不同不仅能够带来更好的点击率，而且还能保持用户的活跃度...

深度强化学习DQN

wangwei19900806的专栏

05-13

766

###DQN模型输入的是处理后的连续帧图像（降维幅度图），经过卷积层层后接两个全连接层，输出是所有动作的Q值。算法 1. NIPS 2013 2. Nature 2015 2.1 算法 2.2 流程图 3. 不足由于Replay Memory原因：无法应用于连续动作控制；只能处理只需短时记忆问题，无法处理需长时记忆问题（后续研究提出了使用LSTM等改进方法）； ...

dqn推荐系统_强化学习在推荐算法的应用论文整理（一）

weixin_39609483的博客

01-01

1158

一. 京东在强化学习的几篇文章Deep Reinforcement Learning for List-wise Recommendations本文将推荐的过程定义为一个序列决策的问题，通过Actor-Critic算法来进行 List-wise 的推荐。模型结构：Actor-Critic主要贡献：构建了一个线上环境仿真器，用于输出从未出现过的状态动作对的奖励，然后可线下对Actor-Critic网...

简单理解LSTM神经网络