深度强化学习算法在车辆车道保持中的应用【matlab/Carla仿真】

最新推荐文章于 2024-08-12 20:50:30 发布

坷拉博士

最新推荐文章于 2024-08-12 20:50:30 发布

阅读量518

点赞数

文章标签：算法

本文链接：https://blog.csdn.net/checkpaper/article/details/132804607

版权

一、内容简介

车道保持是实现车道保持的基本任务，对车辆车道保持进行研究具有一定的学术意义和工程价值。当前的车道保持算法都是基于两段法实现，a 对车道线进行识别，b 通过控制算法计算获得车辆的控制量，且该方法比较死板，算法没有足够的自学性能。
深度学习拥有强大的拟合性能，强化学习则是让智能体在环境中进行试错尝试，根据环境给予的反馈来学习自己的策略，深度强化学习同时拥有强大的拟合性能和自学性能。

二、核心算法和过程

在强化学习中，智能体（Agent）与环境不断进行交互（在本文的车道保持自学习算法中，智能体即被训练的智能体车辆）。Agent 了解外部环境的状态和反馈的回报，并进行学习和决策。 Agent 的决策功能即是根据外部环境的状态采取不同的行动。Agent 的学习功能是在与环境不断交互的过程中，根据外部环境的反馈调整相应的策略。环境是agent 之外的一切，它在 agent 执行相应动作的后得到下一状态并反馈给 agent 对应的奖励。即智能体(agent)可以通过外界的环境状态(state)和反馈的(reward)来进行学习和决策。

输入：MDP五元祖：𝑆, 𝐴, 𝑃, 𝑟, 𝛾;
初始化：∀𝑎, ∀𝑠, 𝜋(𝑎|𝑠) = !
|#| ;
Repeat:
//策略评估；
Repeat:
根据公示2..11计算𝑉$(𝑠)，∀𝑠；
Until ∀𝑠, 𝑉$(𝑠)收敛.
//改进策略
根据公示2.14计算Q(𝑠, 𝑎)；
∀𝑠，𝜋%(𝑎|𝑠) = 𝑎𝑟𝑔&𝑚𝑎𝑥𝑄$(𝑠, 𝑎)；
Until: ∀𝑠, 𝜋%(𝑎|𝑠)收敛.
输出策略；𝜋(𝑎|𝑠)。