小翔强化学习总结

最新推荐文章于 2024-08-01 11:30:27 发布

术语爱编程

最新推荐文章于 2024-08-01 11:30:27 发布

阅读量219

点赞数 1

文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/m0_68447104/article/details/131055424

版权

该项目研究基于深度强化学习的无人驾驶决策算法，结合离线强化学习解决实时交互的安全和效率问题。通过扩散模型生成训练数据训练深度确定性策略梯度网络，实现端到端控制。预期成果包括竞赛获奖和专利论文发表。同时，文章探讨了车辆行驶轨迹数据、扩散模型网络和双缓冲区技术在自动驾驶中的角色。

摘要由CSDN通过智能技术生成

小翔强化学习总结:

题目：基于深度强化学习的无人驾驶决策算法研究

项目简介：
随着汽车的普及以及工业互联网、5G等技术飞速的发展,自动驾驶技术的研究越来越炙手可热,。
在以无人驾驶为代表的高维复杂动态的决策环境中，传统的基于规则的决策规划算法或启发式的决策规划算法，面临维度爆炸，计算复杂度高，难以收敛等问题。
深度强化学习在处理高维状态空间和连续动作空间的序贯决策问题上极具优势,现已在自动驾驶领域得到了广泛研究与应用。
深度强化学习需要实时与环境交互，大量探索与试错，在无人驾驶领域中应用时面临安全和学习效率问题。

本项目将离线强化学习引入无人驾驶决策规划算法研究，首先通过收集具有标签的车辆行驶轨迹数据训练扩散模型网络，再通过扩散模型生成训练数据，利用生成数据对深度确定性策略梯度网络进行训练。
深度确定性策略梯度网络采用图像与点云结合构建的状态作为输入向量，构建双缓冲区提高学习效率，输出为车辆加速、转向和刹车控制命令，实现了端到端的无人驾驶决策控制。

预期成果：
（1）B类赛(计算机设计大赛、安徽省大数据与人工智能应用赛等)获奖1项以上；
（2）申请发明专利，进入实审（排名前2）或发表四类以上论文一篇(本科生第一作者)1篇。

以下给出了学习路线和资料查询：

离线强化学习

😆离线强化学习指的是一种基于历史数据的强化学习方法，它使用已经收集好的数据进行训练，而不需要实时与环境进行交互。这种方法对于那些交互成本很高或者安全性要求较高的应用场景有着重要的意义，例如在无人驾驶、机器人控制等领域都得到了广泛应用。

离线强化学习的核心思想是通过采用已有的数据进行训练，从而学习到一个优秀的策略。具体来说，离线强化学习包括以下两个步骤：

从历史数据中学习价值函数，即每个状态下采取某个行为所获得的累计奖励，这个价值函数可以用于评估和优化策略。
利用学习到的价值函数，根据某种策略寻找最优行动，使整体累计期望奖励最大化。

相比于传统的在线强化学习方法，离线强化学习的优点包括：可以利用已有的历史数据，减少与环境的交互次数；可以进行更加稳定的训练，因为不需要实时反馈；可以更好地应对环境的变化和不确定性。

🌀 然，离线强化学习方法也存在一些挑战和问题，例如历史数据可能不够完备、有效、代表性等，这会影响到训练的效果和泛化能力。因此，在实际应用中，需要针对具体的场景和任务，深入研究并改进离线强化学习算法。

😄这个是西湖大学赵世钰老师的课程，之前李均老师推荐的课：

https://www.bilibili.com/video/BV1sd4y167NS/?spm_id_from=333.337.search-card.all.click&vd_source=0e01f10ce4e801c3f2111fb8f8d90a81

😎:哈哈这里课件我都在github里面下载好了，直接用群里的：

onedrive链接：【书】https://westlakeu-my.sharepoint.com/🅱️/g/personal/lyujialing_westlake_edu_cn/EezBNERoBOtNi7-FrYzSf0wBOnlue-Rqc4QWZUQ0iGVvPw?e=WJtiyI

☕️ 🌀【课程PPT】https://westlakeu-my.sharepoint.com/🅱️/g/personal/lyujialing_westlake_edu_cn/ESX2cjUehGBDqDiVNWXXbcwBt7WQ0Yy5IkI8x0HOa4eX2w?e=rG2IMC

无人驾驶决策规划算法

🌀 规划出更符合需求的轨迹。据不同的行车需求，综合考虑安全性、舒适性、快速性及与目标状态一致四方面安全性的需求。轨迹规划依据决策结果分为高风险敏感型及概率敏感型两种，根本文的轨迹规划结果由于将不确定性纳入考虑范围，在真实道路环境下更能满足境中存在的不确定性，基于上文提出的风险云模型计算风险损失，得到规划结果。迹规划。本文对评价函数中安全性指标的构建方式进行改进，考虑到真实行车环合动力学约束对候选轨迹进行筛选，选取最优轨迹，完成以行为决策为依据的轨簇候选集。构建考虑安全性、舒适性、高效性及与目标一致性的评价函数，并结划达到的目标状态，设计合理的采样规则，在状态空间中进行采样，以获得轨迹算法，对于决策环节得到的不同行为模式，根据各行为模式的自身特点，设定规次数可根据实际情况灵活选择，适应性强。本文采用基于五次多项式的轨迹规划为轨迹的函数基，其形式简单，规划得到的轨迹平滑，适用于跟踪控制。多项式函数化描述的轨迹规划方法进行轨迹规划。该方法实时性较好，其中以多项式作维的问题转化成两个一维的问题便于计算及研究。随后采用对车辆行驶路线进行描述，并将规划问题由笛卡尔坐标系转化至弗莱纳坐标系下进行研究。

个人对无人驾驶决策规划算法的理解：

车辆导航相当于一个行动纲领，而决策规划相当于一个行动细节。

😎 关于无人驾驶决策规划方向的干货

https://www.bilibili.com/video/BV1MU4y1N76G/?spm_id_from=333.337.search-card.all.click&vd_source=0e01f10ce4e801c3f2111fb8f8d90a81

😎 有关无人驾驶决策规划算法的知网论文（这方面的内容很少，只找到吉林大学的一遍硕士论文）

https://kns.cnki.net/reader/review?invoice=tMs0q5f%2BGuCrpdfnPY1fOvwDBGMw9Zxv0sglU2RobzqzePGZw0Aa12APJ5hG9UT8vZJI4jCRnr5iC497ReTDFwGUZZcEasiIXLjOTMKNSwvJ4UbXz9Csrtq5MhaQLqNuQzxf6GNnH7g%2FPjlsvoom5dMC56LIvtcdQuImxXCYHK8%3D&platform=NZKPT&product=CMFD&filename=1021093641.nh&tablename=cmfd202201&type=DISSERTATION&scope=trial&cflag=overlay&dflag=&pages=&language=gb&trial=&nonce=7DB2627DD9414E0CB31E2F5D66764626

车辆行驶轨迹数据:

🌀车辆行驶轨迹数据，顾名思义就是记录车辆行驶在道路上的轨迹信息。该数据通常包括车辆行驶的位置、时间戳和速度等信息，通过将这些信息进行处理和分析，可以对车辆的行驶轨迹进行可视化和统计分析，以了解车辆的行驶路线、速度、停留位置和时间等。

车辆行驶轨迹数据的获取通常使用GPS定位或者惯性传感器等技术进行采集，并存储为数据记录格式，例如CSV、JSON等。具体来说，车辆行驶轨迹数据通常包含以下信息：

时间戳：记录车辆行驶轨迹的时间信息，通常为时间戳格式。
经纬度：记录车辆行驶轨迹的地理位置信息，通常包括经度和纬度两个维度。
速度：记录车辆行驶轨迹的速度信息，通常以千米/小时为单位。
方向：记录车辆行驶的方向信息，通常以角度值表示。

车辆行驶轨迹数据可以应用于多种领域和应用场景，例如智能交通系统、无人驾驶、物流配送等。在交通管理领域中，车辆行驶轨迹数据可以用于路况分析、交通拥堵预测等应用；在无人驾驶领域中，车辆行驶轨迹数据可以用于路径规划、障碍物检测等应用；在物流领域中，车辆行驶轨迹数据可以用于运输路径规划、货物监控等应用。

😎 关于车辆行驶轨迹数据（此方面是无人机的视角）：运用的是csrt算法

https://github.com/ozheng1993/UCF-SST-CitySim-Dataset

😎 《基于车辆轨迹数据的急减速驾驶行为的判定方法》

https://kns.cnki.net/KXReader/Detail?invoice=KdZiFpG8LRno2h5hOusFBEvS28CSFbll1qsLpvhn7rCJVg9cZUhrS8%2FSGVQq3wv9HlpvoGekH%2BtsEC20IetCVbB6LVoBPQ3%2BslQipUeAB9thrCCLMdxNFo4iV3mFgPcB9nmJmrofSF0shjH4bcf1xUVCBsnOSoDBLiLA7i4DLsg%3D&DBCODE=CJFQ&FileName=KXJS202210048&TABLEName=cjfdlast2022&nonce=131D7CB761844146B2758D30248F8E9E&TIMESTAMP=1685964433557&uid=

扩散模型网络：

🌀 扩散模型网络是一类基于图的机器学习方法，主要用于处理和分析具有复杂关系结构的数据。该模型利用图结构来表示数据之间的关系，并通过传播算法来预测每个节点的状态值。

在扩散模型网络中，节点表示数据对象，边表示节点之间的联系，例如社交网络中人与人之间的关系、蛋白质相互作用网络中蛋白质之间的相互作用等。节点的状态值通常是二元或多元变量，例如在社交网络中可能表示用户是否喜欢某个话题，而在蛋白质相互作用网络中可能表示蛋白质的功能类型。

扩散模型网络的核心思想是利用传播算法来预测每个节点的状态值。具体来说，传播算法会对一部分节点设置初始状态值，然后按照一定规则将节点状态值进行传播，最终预测所有节点的状态值。传播算法通常包括两个过程：

激活过程：对于设置了初始状态值的节点，将其状态值进行传播。
传播过程：对于没有初始状态值的节点，根据其周围节点的状态值进行推断，从而确定其状态值。

扩散模型网络的一个重要应用是社交网络分析。例如，可以利用扩散模型网络来分析在一个社交网络中，一条信息如何在不同的用户之间进行传播。此外，扩散模型网络还可以用于推荐系统、生产力和创新研究等领域。

总结来说：可以帮助我们了解数据之间的关系，并预测数据对象的行为和状态。

给你们来波福利😍😍😍：

https://www.bilibili.com/video/BV1PY411Z74Z/?spm_id_from=333.337.search-card.all.click&vd_source=0e01f10ce4e801c3f2111fb8f8d90a81

😎 吴恩达-扩散模型diffusion的工作原理（大佬讲解）

https://www.bilibili.com/video/BV1MP411D7cY/?spm_id_from=333.337.search-card.all.click&vd_source=0e01f10ce4e801c3f2111fb8f8d90a81

二次元美少女头像生成器：

😎 图像生成模型DDPM | 扩散模型 | 生成模型 | 概率扩散去噪生成模型

Diffusion Model in Web Browser (wangjia184.github.io)

深度确定性策略梯度网络:

🌀深度确定性策略梯度网络（Deep Deterministic Policy Gradient, DDPG）是一种用于解决连续控制问题的强化学习算法。DDPG结合了确定性策略和深度神经网络技术，并使用了策略梯度方法进行训练。

在DDPG中，策略和值函数都使用深度神经网络来表示。其中，策略网络用于预测在给定状态下应该执行的动作，而值函数网络则用于评估当前状态的价值。与传统的深度强化学习算法相比，DDPG的最大特点是其可以处理连续动作空间，例如机器人的关节角度。

DDPG通过两个神经网络来优化策略和值函数。首先，通过策略网络计算出在当前状态下应该采取的动作，然后使用贝尔曼方程将当前状态的价值与未来状态的价值相加作为目标函数，对值函数网络进行训练。接着，使用策略梯度方法对策略网络进行训练，使得当前状态下选择的动作可以最大化值函数的价值。最后，通过交替地更新策略和值函数，DDPG算法可以逐步提高在连续动作空间中的控制能力。

DDPG的另一个重要特点是使用了经验回放技术，以解决样本的相关性和数据效率问题。在训练过程中，DDPG会将每次交互得到的状态、动作、奖励和下一个状态存储在经验回放缓存中，并随机采样一小部分数据进行训练，从而提高数据的利用率。

👍👍👍这哥们在语雀里面有DDPG的详细解释和介绍以及一些强化学习的笔记，对我们理解很有帮助的👍👍👍

https://www.yuque.com/mail-ecnu/qgmnr3/ektq9g

图像与点云:

🌀图像和点云是计算机视觉和三维重建领域中的两个重要概念。

图像是由像素组成的二维矩阵，在计算机视觉中被广泛使用。一张图像可以包含大量的信息，例如颜色、纹理、形状等等。在深度学习中，卷积神经网络（CNN）被用于对图像进行分类、检测和分割等任务，通过学习特征来提高模型的性能。

点云则是由一组点构成的三维对象，通常用于三维重建、物体识别和机器人导航等领域。点云数据一般由激光雷达或者结构光扫描仪等设备采集得到，并且点的密度可以根据需要进行调整。在点云数据上进行处理需要考虑到点的位置、法向、颜色等信息。近年来，深度学习在点云数据处理方面也取得了一些进展，例如PointNet和PointCN等网络结构。

图像和点云在应用中有着不同的优势。图像可以捕捉到物体的表面纹理、颜色和形状等信息，其相对容易获取且数据量较小。而点云则可以精确地表示物体的三维形状、表面特性和空间位置等信息，适用于建模和可视化等领域。值得注意的是，图像和点云在很多情况下可以互相转换，例如通过将一张纹理图像投影到对象表面上得到与点云相似的表示形式。