【强化学习自动驾驶】使用SAC算法同时控制转向和速度

最新推荐文章于 2024-01-15 21:23:09 发布

原味小辣鸡

最新推荐文章于 2024-01-15 21:23:09 发布

阅读量1.2k

点赞数 1

分类专栏：在大学的快乐生活文章标签：强化学习自动驾驶

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_15536485/article/details/111053478

版权

在大学的快乐生活专栏收录该内容

9 篇文章 9 订阅

订阅专栏

代码：https://download.csdn.net/download/qq_15536485/13668371

SAC小改

SAC算法是在github上下的，然后进行了一点魔改。
就是把动作输出维度改成了2维而已

莫凡环境

把动作决策部分改了，主要就是对两个动作进行处理，加了个线速度。
然后对reward瞎调了一个，别撞墙就行。

大体效果

跑的挺嗨的，大概第50轮就可以收敛了，稳得不行。
然后不断的提高速度
但是150轮左右会大概率撞墙，估计是经验池太大了，抽取的记忆太旧了。
不过把第51行和第52行改了，就是在测试的效果就还行。
然后数据。。。没保存。。。
不过训练速度还行，15分钟就行了。挺稳定的。

在ros与rviz里仿真的诡异结果

用的是f1tenth的虚拟环境，速度最大调的3m/s，转向角没变。
对SAC和虚拟环境做了一大堆修改。
然后它学会了漂移。。。。
我tm？？？？？
可能是要对阿克曼结构需要做出更多的思考，好像是个大工程。。。。

最近期末了，等有时间再改改，起码说明有效了。

有问题麻烦私信我，这个玩意儿做的有点早了。

原味小辣鸡

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【强化学习自动驾驶】使用SAC算法同时控制转向和速度

莫凡的DDPG强化学习小车环境修改这个步骤是为了验证可行性。最终目的是放在
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。