一、内容简介
车道保持是实现车道保持的基本任务,对车辆车道保持进行研究具有一定的学术意义和工程价值。 当前的车道保持算法都是基于两段法实现,a 对车道线进行识别,b 通过控制算法计算获得车辆的控制量,且该方法比较死板,算法没有足够的自学性能。
深度学习拥有强大的拟合性能,强化学习则是让智能体在环境中进行试错尝试,根据环境给予的反馈来学习自己的策略,深度强化学习同时拥有强大的拟合性能和自学性能。
二、核心算法和过程
在强化学习中,智能体(Agent)与环境不断进行交互(在本文的车道保持自学习算法中,智能体即被训练的智能体车辆)。Agent 了解外部环境的状态和反馈的回报,并进行学习和决策。 Agent 的决策功能即是根据外部环境的状态采取不同的行动。Agent 的学习功能是在与环境不断交互的过程中,根据外部环境的反馈调整相应的策略。环境是agent 之外的一切,它在 agent 执行相应动作的后得到下一状态并反馈给 agent 对应的奖励。即智能体(agent)可以通过外界的环境状态(state)和反馈的(reward)来进行学习和决策。
输入:MDP五元祖:𝑆, 𝐴, 𝑃, 𝑟, 𝛾;
初始化:∀𝑎, ∀𝑠, 𝜋(𝑎|𝑠) = !
|#| ;
Repeat:
//策略评估;
Repeat:
根据公示2..11计算𝑉$(𝑠),∀𝑠;
Until ∀𝑠, 𝑉$(𝑠)收敛.
//改进策略
根据公示2.14计算Q(𝑠, 𝑎);
∀𝑠,𝜋%(𝑎|𝑠) = 𝑎𝑟𝑔&𝑚𝑎𝑥𝑄$(𝑠, 𝑎);
Until: ∀𝑠, 𝜋%(𝑎|𝑠)收敛.
输出策略;𝜋(𝑎|𝑠)。
神经网络拟合动作价值函数示意图
编码器网络结构图