强化学习下的赛道自动驾驶

最新推荐文章于 2024-01-11 10:01:29 发布

Utterly Bonkers

最新推荐文章于 2024-01-11 10:01:29 发布

阅读量649

点赞数 1

文章标签：强化学习神经网络 tensorforce ROS PPO

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Utterly_Bonkers/article/details/117917341

版权

如今自动驾驶系统已经非常成熟，神经网络已经可以在大多数工况下，根据激光雷达以及普通摄像头输出可靠的油门及转向决定。不过，这不代表这种分类式神经网络的自动驾驶是十全十美的。这类算法的局限之一在于，它始终无法突破或改进训练数据所展示的性能，同时也无法对环境相比训练时产生的偏移的各种改变做出真正意义上的响应。相比之下，强化学习在注重性能或适应性的场合有不小的潜力。在这篇博客里，我记录一次使用强化学习，利用激光雷达进行模拟赛道自动驾驶的探索。

算法介绍

DQN

Deep Q-Network 之核心是奖励估测神经网络 $S\rightarrow A\times R$ ，其输入为当前状态 $s\in S$ ，输出为 $\cup _{i}\{(a_i, v_i)\}$ ，即对于每个可能使用的动作赋予一个预期奖励值v。v即为网络预测执行该动作后至该训练周期结束，agent获得奖励之和。v默认接下来的所有决策也按照算法进行：

最低0.47元/天解锁文章

Utterly Bonkers

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
强化学习下的赛道自动驾驶

这里写自定义目录标题算法介绍DQN网络配置奖励设定效果欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入如今自动驾驶系统已经非常成熟，神经网络已经可以在大多数工况下，根据激光雷达以及普通摄像头输
复制链接

扫一扫

Utterly Bonkers CSDN认证博客专家 CSDN认证企业博客

码龄5年

15: 原创

39万+: 周排名

144万+: 总排名

8万+: 访问

: 等级

902: 积分

139: 粉丝

53: 获赞

18: 评论

282: 收藏

私信

关注

热门文章

最新评论

最优传输-Sinkhorn算法（第九篇）
浮世万千: 应该是博主写错了，应该是倒数，即ε=τ/4log(n)。我看其他书上是这么写的（Near-linear time approximation algorithms for optimal transport via Sinkhorn iteration）
最优传输系列-第二篇
Echo0058: 请问Ma指什么
最优传输-Sinkhorn算法（第九篇）
qq_38344269: 感谢楼主的分享，但是这些公式排版看着挺难受的。。。
最优传输-Sinkhorn算法（第九篇）
zhaoliang照亮你: 博主您好，这个ε减小，正则化降低，理论上逐渐等价于原始的OT问题，sinkhorn计算的解应该更接近LC(a,b)，τ应该更小；在ε=4log(n)/τ中，ε减小，误差τ增加，同时时间复杂度减小（理论上熵约束减小，计算时间会增加）不是矛盾么，您怎么看呢
最优传输-熵正则化（第八篇）
Sysu_sdcs: 应该是 1/ε 吧？这样子 ε=10就是最小的，ε=1e-2就是最大的

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。