深度强化学习算法在车辆车道保持中的应用【matlab/Carla仿真】

一、内容简介

车道保持是实现车道保持的基本任务,对车辆车道保持进行研究具有一定的学术意义和工程价值。   当前的车道保持算法都是基于两段法实现,a 对车道线进行识别,b 通过控制算法计算获得车辆的控制量,且该方法比较死板,算法没有足够的自学性能。
深度学习拥有强大的拟合性能,强化学习则是让智能体在环境中进行试错尝试,根据环境给予的反馈来学习自己的策略,深度强化学习同时拥有强大的拟合性能和自学性能。

二、核心算法和过程

在强化学习中,智能体(Agent)与环境不断进行交互(在本文的车道保持自学习算法中,智能体即被训练的智能体车辆)。Agent 了解外部环境的状态和反馈的回报,并进行学习和决策。 Agent 的决策功能即是根据外部环境的状态采取不同的行动。Agent 的学习功能是在与环境不断交互的过程中,根据外部环境的反馈调整相应的策略。环境是agent 之外的一切,它在 agent 执行相应动作的后得到下一状态并反馈给 agent 对应的奖励。即智能体(agent)可以通过外界的环境状态(state)和反馈的(reward)来进行学习和决策。

输入:MDP五元祖:𝑆, 𝐴, 𝑃, 𝑟, 𝛾;
初始化:∀𝑎, ∀𝑠, 𝜋(𝑎|𝑠) = !
|#| ;
Repeat:
//策略评估;
Repeat:
根据公示2..11计算𝑉$(𝑠),∀𝑠;
Until ∀𝑠, 𝑉$(𝑠)收敛.
//改进策略
根据公示2.14计算Q(𝑠, 𝑎);
∀𝑠,𝜋%(𝑎|𝑠) = 𝑎𝑟𝑔&𝑚𝑎𝑥𝑄$(𝑠, 𝑎);
Until: ∀𝑠, 𝜋%(𝑎|𝑠)收敛.
输出策略;𝜋(𝑎|𝑠)。

神经网络拟合动作价值函数示意图

编码器网络结构图 

博主简介:本人擅长数据处理、建模仿真、程序设计、论文写作与指导,毕业论文、期刊论文经验交流。个人博客:kelaboshi.com。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

坷拉博士

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值