DDPG自动驾驶横向控制项目调参过程

最新推荐文章于 2024-05-09 13:10:03 发布

Wwwilling

最新推荐文章于 2024-05-09 13:10:03 发布

阅读量2.5k

点赞数 6

分类专栏：强化学习项目文章标签：人工智能强化学习自动驾驶 python 算法

本文链接：https://blog.csdn.net/qq_43058281/article/details/117966944

版权

强化学习项目专栏收录该内容

1 篇文章 0 订阅

订阅专栏

DDPG自动驾驶横向控制项目调参过程

我做的一个DDPG的自动驾驶横向控制的项目，用的模拟器是Torcs。
在调参过程中遇到了很多问题，在这里记录一下。

actor和critic网络的学习率

一开始我按照大部分资料中说的，学习率设计的越小越好。将学习率设为actor和critic分别为1e-6和1e-5。
结果出现了loss震荡的情况以及reward最终收敛到最低值，学到了坏的结果的情况。
在这里插入图片描述

根据多次实验的结果，我选取的学习率为演员网络和评论家网络分别为 1e-4 和 1e-3，并引入在训练神经网络时，学习率随轮数衰减。
分析：
虽然很多资料说学习率越小越好，但是也很可能导致实际上没有学到东西。另外在设置参数的时候最好critic比actor的参数设置大一些。

OU噪声参数设置

由于我的智能体始终无法学会转弯，我认为是OU噪声设置过小的缘故。
一开始OU噪声我设置成DDPG论文中的一样： $\sigma$ 为0.15， $\theta$ 为0.2。最终陷入了局部最优。
在这里插入图片描述
因此我调整参数为：

整体参数设置

• Actor network learning rate: 1e-4;
• Critic network learning rate: 1e-3
• Soft target update rate $\tau$ : 1e-3
• Batch size: 128;
• Experience playback pool size: 38700;
• Episode steps limit: 183337
• Warmup steps: 1000
• Simulation frequency: 20 Hz.

备注：

Batch size越大越好；
经验池大小最好是batch size的300倍；

结果

在这里插入图片描述

Wwwilling

关注

6
点赞
踩
35

收藏

觉得还不错? 一键收藏
0
评论
DDPG自动驾驶横向控制项目调参过程

DDPG自动驾驶横向控制项目调参过程actor和critic网络的学习率OU噪声参数设置整体参数设置结果我做的一个DDPG的自动驾驶横向控制的项目，用的模拟器是Torcs。在调参过程中遇到了很多问题，在这里记录一下。actor和critic网络的学习率一开始我按照大部分资料中说的，学习率设计的越小越好。将学习率设为actor和critic分别为1e-6和1e-5。结果出现了loss震荡的情况以及reward最终收敛到最低值，学到了坏的结果的情况。根据多次实验的结果，我选取的学习率为演员网络和
复制链接

扫一扫

专栏目录