代码:https://download.csdn.net/download/qq_15536485/13668371
SAC小改
SAC算法是在github上下的,然后进行了一点魔改。
就是把动作输出维度改成了2维而已
莫凡环境
把动作决策部分改了,主要就是对两个动作进行处理,加了个线速度。
然后对reward瞎调了一个,别撞墙就行。
大体效果
跑的挺嗨的,大概第50轮就可以收敛了,稳得不行。
然后不断的提高速度
但是150轮左右会大概率撞墙,估计是经验池太大了,抽取的记忆太旧了。
不过把第51行和第52行改了,就是在测试的效果就还行。
然后数据。。。没保存。。。
不过训练速度还行,15分钟就行了。挺稳定的。
在ros与rviz里仿真的诡异结果
用的是f1tenth的虚拟环境,速度最大调的3m/s,转向角没变。
对SAC和虚拟环境做了一大堆修改。
然后它学会了漂移。。。。
我tm?????
可能是要对阿克曼结构需要做出更多的思考,好像是个大工程。。。。
最近期末了,等有时间再改改,起码说明有效了。