小翔强化学习总结

该项目研究基于深度强化学习的无人驾驶决策算法,结合离线强化学习解决实时交互的安全和效率问题。通过扩散模型生成训练数据训练深度确定性策略梯度网络,实现端到端控制。预期成果包括竞赛获奖和专利论文发表。同时,文章探讨了车辆行驶轨迹数据、扩散模型网络和双缓冲区技术在自动驾驶中的角色。
摘要由CSDN通过智能技术生成

小翔强化学习总结:

题目:基于深度强化学习的无人驾驶决策算法研究

项目简介:
随着汽车的普及以及工业互联网、5G等技术飞速的发展,自动驾驶技术的研究越来越炙手可热,。
在以无人驾驶为代表的高维复杂动态的决策环境中,传统的基于规则的决策规划算法或启发式的决策规划算法,面临维度爆炸,计算复杂度高,难以收敛等问题。
深度强化学习在处理高维状态空间和连续动作空间的序贯决策问题上极具优势,现已在自动驾驶领域得到了广泛研究与应用。
深度强化学习需要实时与环境交互,大量探索与试错,在无人驾驶领域中应用时面临安全和学习效率问题。

本项目将离线强化学习引入无人驾驶决策规划算法研究,首先通过收集具有标签的车辆行驶轨迹数据训练扩散模型网络,再通过扩散模型生成训练数据,利用生成数据对深度确定性策略梯度网络进行训练。
深度确定性策略梯度网络采用图像与点云结合构建的状态作为输入向量,构建双缓冲区提高学习效率,输出为车辆加速、转向和刹车控制命令,实现了端到端的无人驾驶决策控制。

预期成果:
(1)B类赛(计算机设计大赛、安徽省大数据与人工智能应用赛等)获奖1项以上;
(2)申请发明专利,进入实审(排名前2)或发表四类以上论文一篇(本科生第一作者)1篇。

以下给出了学习路线和资料查询:

离线强化学习

😆离线强化学习指的是一种基于历史数据的强化学习方法,它使用已经收集好的数据进行训练,而不需要实时与环境进行交互。这种方法对于那些交互成本很高或者安全性要求较高的应用场景有着重要的意义,例如在无人驾驶、机器人控制等领域都得到了广泛应用。

离线强化学习的核心思想是通过采用已有的数据进行训练,从而学习到一个优秀的策略。具体来说,离线强化学习包括以下两个步骤:

  1. 从历史数据中学习价值函数,即每个状态下采取某个行为所获得的累计奖励,这个价值函数可以用于评估和优化策略。
  2. 利用学习到的价值函数,根据某种策略寻找最优行动,使整体累计期望奖励最大化。

相比于传统的在线强化学习方法,离线强化学习的优点包括:可以利用已有的历史数据,减少与环境的交互次数;可以进行更加稳定的训练,因为不需要实时反馈;可以更好地应对环境的变化和不确定性。

🌀 然,离线强化学习方法也存在一些挑战和问题,例如历史数据可能不够完备、有效、代表性等,这会影响到训练的效果和泛化能力。因此,在实际应用中,需要针对具体的场景和任务,深入研究并改进离线强化学习算法。

😄这个是西湖大学赵世钰老师的课程,之前李均老师推荐的课:

https://www.bilibili.com/video/BV1sd4y167NS/?spm_id_from=333.337.search-card.all.click&vd_source=0e01f10ce4e801c3f2111fb8f8d90a81

😎:哈哈这里课件我都在github里面下载好了,直接用群里的:

onedrive链接: 【书】https://westlakeu-my.sharepoint.com/🅱️/g/personal/lyujialing_westlake_edu_cn/EezBNERoBOtNi7-FrYzSf0wBOnlue-Rqc4QWZUQ0iGVvPw?e=WJtiyI

☕️ 🌀【课程PPT】https://westlakeu-my.sharepoint.com/🅱️/g/personal/lyujialing_westlake_edu_cn/ESX2cjUehGBDqDiVNWXXbcwBt7WQ0Yy5IkI8x0HOa4eX2w?e=rG2IMC

  1. 无人驾驶决策规划算法

🌀 规划出更符合需求的轨迹。据不同的行车需求,综合考虑安全性、舒适性、快速性及与目标状态一致四方面安全性的需求。轨迹规划依据决策结果分为高风险敏感型及概率敏感型两种,根本文的轨迹规划结果由于将不确定性纳入考虑范围,在真实道路环境下更能满足境中存在的不确定性,基于上文提出的风险云模型计算风险损失,得到规划结果。迹规划。本文对评价函数中安全性指标的构建方式进行改进,考虑到真实行车环合动力学约束对候选轨迹进行筛选,选取最优轨迹,完成以行为决策为依据的轨簇候选集。构建考虑安全性、舒适性、高效性及与目标一致性的评价函数,并结划达到的目标状态,设计合理的采样规则,在状态空间中进行采样,以获得轨迹算法,对于决策环节得到的不同行为模式,根据各行为模式的自身特点,设定规次数可根据实际情况灵活选择,适应性强。本文采用基于五次多项式的轨迹规划为轨迹的函数基,其形式简单,规划得到的轨迹平滑,适用于跟踪控制。多项式函数化描述的轨迹规划方法进行轨迹规划。该方法实时性较好,其中以多项式作维的问题转化成两个一维的问题便于计算及研究。随后采用对车辆行驶路线进行描述,并将规划问题由笛卡尔坐标系转化至弗莱纳坐标系下进行研究。

个人对无人驾驶决策规划算法的理解:

车辆导航相当于一个行动纲领,而决策规划相当于一个行动细节。

😎 关于无人驾驶决策规划方向的干货

https://www.bilibili.com/video/BV1MU4y1N76G/?spm_id_from=333.337.search-card.all.click&vd_source=0e01f10ce4e801c3f2111fb8f8d90a81

😎 有关无人驾驶决策规划算法的知网论文(这方面的内容很少,只找到吉林大学的一遍硕士论文)

https://kns.cnki.net/reader/review?invoice=tMs0q5f%2BGuCrpdfnPY1fOvwDBGMw9Zxv0sglU2RobzqzePGZw0Aa12APJ5hG9UT8vZJI4jCRnr5iC497ReTDFwGUZZcEasiIXLjOTMKNSwvJ4UbXz9Csrtq5MhaQLqNuQzxf6GNnH7g%2FPjlsvoom5dMC56LIvtcdQuImxXCYHK8%3D&platform=NZKPT&product=CMFD&filename=1021093641.nh&tablename=cmfd202201&type=DISSERTATION&scope=trial&cflag=overlay&dflag=&pages=&language=gb&trial=&nonce=7DB2627DD9414E0CB31E2F5D66764626

  1. 车辆行驶轨迹数据:

🌀车辆行驶轨迹数据,顾名思义就是记录车辆行驶在道路上的轨迹信息。该数据通常包括车辆行驶的位置、时间戳和速度等信息,通过将这些信息进行处理和分析,可以对车辆的行驶轨迹进行可视化和统计分析,以了解车辆的行驶路线、速度、停留位置和时间等。

车辆行驶轨迹数据的获取通常使用GPS定位或者惯性传感器等技术进行采集,并存储为数据记录格式,例如CSV、JSON等。具体来说,车辆行驶轨迹数据通常包含以下信息:

  1. 时间戳:记录车辆行驶轨迹的时间信息,通常为时间戳格式。
  2. 经纬度:记录车辆行驶轨迹的地理位置信息,通常包括经度和纬度两个维度。
  3. 速度:记录车辆行驶轨迹的速度信息,通常以千米/小时为单位。
  4. 方向:记录车辆行驶的方向信息,通常以角度值表示。

车辆行驶轨迹数据可以应用于多种领域和应用场景,例如智能交通系统、无人驾驶、物流配送等。在交通管理领域中,车辆行驶轨迹数据可以用于路况分析、交通拥堵预测等应用;在无人驾驶领域中,车辆行驶轨迹数据可以用于路径规划、障碍物检测等应用;在物流领域中,车辆行驶轨迹数据可以用于运输路径规划、货物监控等应用。

😎 关于车辆行驶轨迹数据(此方面是无人机的视角):运用的是csrt算法

https://github.com/ozheng1993/UCF-SST-CitySim-Dataset

😎 《基于车辆轨迹数据的急减速驾驶行为的判定方法》

https://kns.cnki.net/KXReader/Detail?invoice=KdZiFpG8LRno2h5hOusFBEvS28CSFbll1qsLpvhn7rCJVg9cZUhrS8%2FSGVQq3wv9HlpvoGekH%2BtsEC20IetCVbB6LVoBPQ3%2BslQipUeAB9thrCCLMdxNFo4iV3mFgPcB9nmJmrofSF0shjH4bcf1xUVCBsnOSoDBLiLA7i4DLsg%3D&DBCODE=CJFQ&FileName=KXJS202210048&TABLEName=cjfdlast2022&nonce=131D7CB761844146B2758D30248F8E9E&TIMESTAMP=1685964433557&uid=

扩散模型网络:

🌀 扩散模型网络是一类基于图的机器学习方法,主要用于处理和分析具有复杂关系结构的数据。该模型利用图结构来表示数据之间的关系,并通过传播算法来预测每个节点的状态值。

在扩散模型网络中,节点表示数据对象,边表示节点之间的联系,例如社交网络中人与人之间的关系、蛋白质相互作用网络中蛋白质之间的相互作用等。节点的状态值通常是二元或多元变量,例如在社交网络中可能表示用户是否喜欢某个话题,而在蛋白质相互作用网络中可能表示蛋白质的功能类型。

扩散模型网络的核心思想是利用传播算法来预测每个节点的状态值。具体来说,传播算法会对一部分节点设置初始状态值,然后按照一定规则将节点状态值进行传播,最终预测所有节点的状态值。传播算法通常包括两个过程:

  1. 激活过程:对于设置了初始状态值的节点,将其状态值进行传播。
  2. 传播过程:对于没有初始状态值的节点,根据其周围节点的状态值进行推断,从而确定其状态值。

扩散模型网络的一个重要应用是社交网络分析。例如,可以利用扩散模型网络来分析在一个社交网络中,一条信息如何在不同的用户之间进行传播。此外,扩散模型网络还可以用于推荐系统、生产力和创新研究等领域。

总结来说:可以帮助我们了解数据之间的关系,并预测数据对象的行为和状态。

给你们来波福利😍😍😍:

https://www.bilibili.com/video/BV1PY411Z74Z/?spm_id_from=333.337.search-card.all.click&vd_source=0e01f10ce4e801c3f2111fb8f8d90a81

😎 吴恩达-扩散模型diffusion的工作原理(大佬讲解)

https://www.bilibili.com/video/BV1MP411D7cY/?spm_id_from=333.337.search-card.all.click&vd_source=0e01f10ce4e801c3f2111fb8f8d90a81

二次元美少女头像生成器:
😎 图像生成模型DDPM | 扩散模型 | 生成模型 | 概率扩散去噪生成模型

Diffusion Model in Web Browser (wangjia184.github.io)

深度确定性策略梯度网络:

🌀深度确定性策略梯度网络(Deep Deterministic Policy Gradient, DDPG)是一种用于解决连续控制问题的强化学习算法。DDPG结合了确定性策略和深度神经网络技术,并使用了策略梯度方法进行训练。

在DDPG中,策略和值函数都使用深度神经网络来表示。其中,策略网络用于预测在给定状态下应该执行的动作,而值函数网络则用于评估当前状态的价值。与传统的深度强化学习算法相比,DDPG的最大特点是其可以处理连续动作空间,例如机器人的关节角度。

DDPG通过两个神经网络来优化策略和值函数。首先,通过策略网络计算出在当前状态下应该采取的动作,然后使用贝尔曼方程将当前状态的价值与未来状态的价值相加作为目标函数,对值函数网络进行训练。接着,使用策略梯度方法对策略网络进行训练,使得当前状态下选择的动作可以最大化值函数的价值。最后,通过交替地更新策略和值函数,DDPG算法可以逐步提高在连续动作空间中的控制能力。

DDPG的另一个重要特点是使用了经验回放技术,以解决样本的相关性和数据效率问题。在训练过程中,DDPG会将每次交互得到的状态、动作、奖励和下一个状态存储在经验回放缓存中,并随机采样一小部分数据进行训练,从而提高数据的利用率。

👍👍👍这哥们在语雀里面有DDPG的详细解释和介绍以及一些强化学习的笔记,对我们理解很有帮助的👍👍👍

https://www.yuque.com/mail-ecnu/qgmnr3/ektq9g

图像与点云:

🌀图像和点云是计算机视觉和三维重建领域中的两个重要概念。

图像是由像素组成的二维矩阵,在计算机视觉中被广泛使用。一张图像可以包含大量的信息,例如颜色、纹理、形状等等。在深度学习中,卷积神经网络(CNN)被用于对图像进行分类、检测和分割等任务,通过学习特征来提高模型的性能。

点云则是由一组点构成的三维对象,通常用于三维重建、物体识别和机器人导航等领域。点云数据一般由激光雷达或者结构光扫描仪等设备采集得到,并且点的密度可以根据需要进行调整。在点云数据上进行处理需要考虑到点的位置、法向、颜色等信息。近年来,深度学习在点云数据处理方面也取得了一些进展,例如PointNet和PointCN等网络结构。

图像和点云在应用中有着不同的优势。图像可以捕捉到物体的表面纹理、颜色和形状等信息,其相对容易获取且数据量较小。而点云则可以精确地表示物体的三维形状、表面特性和空间位置等信息,适用于建模和可视化等领域。值得注意的是,图像和点云在很多情况下可以互相转换,例如通过将一张纹理图像投影到对象表面上得到与点云相似的表示形式。

😎 如何融合图像与雷达点云并给点云上色:(源码)

https://github.com/ZhengXinyue/bilibili_project

🌀首先,图像是由若干个像素点组成的二维矩阵。每一个像素点都有其对应的颜色值,包括红绿蓝三个通道。我们经常通过摄像机、手机相机等设备获取图像信息。在计算机视觉领域中,图像可以用于分类、检测、分割等任务,深度学习也广泛应用于图像处理中。

而点云则是由若干个点组成的三维坐标系中的对象。点云数据可以通过激光雷达、结构光扫描仪等设备获取。点云数据中包含点的位置信息、颜色信息、法向量等属性。在三维重建、物体识别和机器人导航等领域中有广泛的应用。最近几年,深度学习在点云数据处理方面也取得了进展。

可以看出,图像和点云都是非常重要的数据表示形式,在计算机视觉和三维重建等领域中发挥着巨大作用。当然,两者也有区别,例如图像是二维的,而点云是三维的。点云可以表示三维物体更为精确,但数据量较大,而图像则相对容易获取。

对双缓冲区的通俗理解:

🌀双缓冲区是指使用两块缓冲区来交替显示图像或者动画等多媒体内容的技术。其中,一个缓冲区用于保存当前需要显示的内容,而另一个缓冲区则用于准备下一帧即将显示的内容。当下一帧内容准备好后,两个缓冲区进行切换,当前缓冲区变为下一帧即将显示的内容,另一个缓冲区成为当前展示的内容。

使用双缓冲区技术可以避免显示屏幕出现闪烁和撕裂等问题,提高了图形界面的性能和流畅度。这是因为在传统单缓冲区方式下,当图像数据被更新时,屏幕上原有的内容会被清除,并且新内容会从屏幕左上角开始逐个像素点地显示。这种方式显示的图像往往会出现闪烁和撕裂等现象。

而双缓冲区技术则可以避免这些问题。将准备好的下一帧内容直接切换到另一个缓冲区中,而不是直接在屏幕上刷新,可以让刷新过程更加平滑,并且避免了闪烁和撕裂等问题。

双缓冲区技术在游戏、计算机动画、图像处理和视频处理等领域中都有广泛的应用。在游戏中,使用双缓冲区技术可以让游戏画面更加流畅,提高用户体验;在视频处理中,双缓冲区技术可以避免视频出现撕裂和卡顿等问题,提高观看体验;在图像处理中,双缓冲区技术可以确保图像处理的流畅性和准确性。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值