《自动驾驶汽车环境感知》学习笔记
致谢:作者:甄先通、黄坚、王亮、夏添
--------------------------------------------------------------------------------------------------------
笔记目录
本书系统介绍了自动驾驶汽车环境感知技术。从自动驾驶环境感知概述开始,介绍了车载传感器及传感器标定、计算机视觉与神经网络、环境感知与识别、自动驾驶道路复杂场景语义理解,以及多传感器融合,并通过范例实践验证,可为具备一定基础的人员提供自动驾驶环境感知系统的开发指导。
清华大学出版社此书链接:http://www.tup.tsinghua.edu.cn/booksCenter/book_08301201.html
系列丛书
学习笔记只是随手记录一下阅读的心得,碰到感兴趣的技术要点详细记录,拓宽拓宽眼界,增长增长见识,从自动驾驶的概论到感知-定位-决策-控制,这几个方面学习学习自动驾驶啦~~
未读章节:不标记颜色
已读章节:底部标绿色
感兴趣点:底部标黄色
--------------------------------------------------------------------------------------------------------
《自动驾驶技术概论》
目录
第一章自动驾驶环境感知概述
1.1自动驾驶环境感知介绍
1.2车载感知系统组成简介
第二章车载传感器介绍
2.1摄像头
2.1.1概述
2.1.2工作原理
2.1.3优缺点
2.1.4摄像头在自动驾驶汽车上的应用
2.2激光雷达
2.2.1概述
2.2.2工作原理
2.2.3优缺点
2.2.4激光雷达在自动驾驶汽车中的应用
2.3毫米波雷达
2.3.1概述
2.3.2工作原理
2.3.3优缺点
2.3.4毫米波雷达在自动驾驶汽车中的应用
2.4超声波雷达
2.4.1概述
2.4.2工作原理
2.4.3优缺点
2.4.4超声波雷达在自动驾驶汽车上的应用
2.5惯性导航
2.5.1概述
2.5.2工作原理
2.5.3优缺点
2.5.4惯性导航在自动驾驶汽车上的应用
2.6本章小结
参考文献
第三章传感器标定
3.1概述
3.2摄像头的标定
3.2.1摄像头内参数标定
3.2.2摄像头间外参的标定
3.3激光雷达的标定
3.3.1激光雷达与激光雷达之间的外参标定
3.3.2激光雷达与摄像机的标定
3.4联合标定实验
3.5本章小结
参考文献
第四章计算机视觉与神经网络
4.1无人驾驶与计算机视觉
4.1.1生物视觉
4.1.2边缘检测
4.1.3图像分割
4.1.4神经网络与深度学习
4.1.5深度学习与传统学习
4.1.6计算机视觉在自动驾驶中的应用
4.2深度前馈网络
4.2.1 神经元
4.2.2网络结构
4.2.3深度前馈网络
4.2.4参数学习
4.3卷积神经网络
4.3.1卷积的概念
4.3.2卷积神经网络的性质
4.3.3卷积神经网络基本结构
4.3.4典型卷积神经网络
参考文献
第五章环境感知与识别
5.1环境感知与识别概述
5.2障碍物检测
5.2.2基于激光雷达的障碍物检测
5.2.3基于视觉和激光雷达融合的障碍物检测
5.3车道线检测
5.3.1基于传统计算机视觉的车道线检测
5.3.2基于深度学习的车道线检测
5.3.3基于激光雷达的车道线检测
5.4红绿灯检测
5.4.1基于传统视觉方法的红绿灯检测
5.4.2基于深度学习的红绿灯检测
5.4.3高精地图结合
5.5场景流
5.5.1概述
5.5.2深度估计
5.5.3光流估计
5.6基于V2X的道路环境感知技术
5.6.1V2X技术
5.6.2路侧感知技术
5.7红绿灯检测实验
5.7.1Apollo红绿灯数据集
5.7.2实验流程
5.8本章小结
参考文献
第六章自动驾驶道路复杂场景语义理解
6.1 ApolloScape数据集
6.2可行驶区域检测
6.2.1基于传统计算机视觉的可行驶区域检测
6.2.2基于深度学习的可行驶区域检测
6.3复杂场景理解
6.3.1问题分析与应用场景
6.3.2CNN+LSTM实现
6.4动态场景理解
6.4.1多目标跟踪
6.4.2路径实时预测
6.4.3行人手势识别
6.5基于PointNet的点云分类和语义分割实验
6.5.1应用模型介绍
6.5.2实验环境·
6.5.3PointNet++代码运行
6.6本章小结
参考文献
第七章多传感器融合
7.1概述
7.2多传感器信息融合基础理论
7.2.1多传感器信息融合概述
7.2.2多传感器融合结构
7.2.3多传感器融合算法
7.3多传感器后融合技术
7.3.1Ulm自动驾驶:模块化的融合方法
7.3.2FOP-MOC模型
7.4多传感器前融合技术
7.4.1MV3D
7.4.2AVOD
7.4.3F-PointNet
7.5本章小结
参考文献
-------------------------------------------------------------------------------------------------------
1.自动驾驶环境感知概述
自动驾驶系统入门(一) - 环境感知 - 知乎 (zhihu.com)
自动驾驶感知——环境感知的基本概念_环境感知技术概述-CSDN博客
自动驾驶四大核心技术分别是环境感知、精确定位、路径规划、线控执行。环境感知系统设计是自动驾驶发展的一个关键环节,也是自动驾驶体现智能的主要方面之一。
其实应该可以分为两个部分,硬件和软件
在硬件上,感知主要是摄像头、激光雷达、毫米波雷达、惯导IMU等,这些硬件的选型,性能,以及技术上的提升,原理等等
在软件上,主要就是基于硬件采集到的数据,进行算法的处理和提升,输入是图片、视频、点云等信息,利用深度学习、神经网络、强化学习等进行处理,最后产生有用信息的输出
ps:在搜索资料的时候看到自动驾驶方向确实有很多课题可以做
2.环境感知——硬件
可以参考一下我的《多传感器融合感知技术学习》笔记专栏:http://t.csdnimg.cn/RL1xQ
2.1摄像头
有高级语言的功能,就像是人的眼睛,能够看到五颜六色的世界
车载摄像头的优点十分明显:技术成熟,成本低,采集信息十分丰富,包含最接近人类视觉的语义信息。
其缺点主要是摄像头受光照、环境影响十分大,很难全天候工作,在黑夜、雨雪,大雾等能见度较低的情况下,其识别率大幅度降低。车载摄像头的另一缺点就是缺乏深度信息,三维立体空间感不强。
最新综述!基于视觉的自动驾驶环境感知(单目、双目和RGB-D)-阿里云开发者社区 (aliyun.com)
2.2激光雷达
Apollo激光雷达感知:探索自动驾驶的“眼睛”-腾讯云开发者社区-腾讯云 (tencent.com)
激光扫描测量是通过激光扫描器和距离传感器来获取被测目标的表面形态的。激光扫描器一般由激光发射器、接收器、时间计数器、微计算机等组成。
激光雷达通过脉冲激光不断地扫描目标物,就可以得到目标物上全部目标点的数据,使用这些数据进行图像处理后,就可以得到精确的三维立体图像。另外,激光束发射的频率一般是每秒几万个脉冲以上。举例而言,一个频率为每秒一万次脉冲的系统,接收器将会在一分钟内记录六十万个点。
激光雷达的一些参数:
2.3毫米波雷达
这博主写得很全面:自动驾驶感知——毫米波雷达_毫米波雷达输出什么数据-CSDN博客
毫米波雷达是工作在毫米波波段(millimeter wave)探测的雷达,其与普通雷达相似,通过发射无线电信号并接收反射信号来测定与物体间的距离。毫米波频率通常在30~300GHz(波长为1~10mm),波长介于厘米波和光波之间,因此毫米波雷达兼有微波雷达和光电雷达的一些优点,非常适合于自动驾驶汽车领域的应用。因为毫米波雷达具有较强的穿透性,能够轻松地穿透保险杠上的塑料,所以常被安装在汽车的保险杠内。
77GHz及79GHz雷达是未来车载毫米波雷达的发展方向,国内正处于快速追赶时期
毫米波雷达优点:
(1)高分辨率,小尺寸。由于天线和其他的微波元器件尺寸与频率有关,因此毫米波雷达的天线和微波元器件较小,小的天线尺寸可获得窄波束。
(2)与红外﹑激光,电视等光学导引头相比,毫米波导引头穿透雾、烟,灰尘的能力强,测距精度受天气因素和环境因素影响较小,可以基本保证车辆在各种日常天气下的正常运行。
(3与常常用来与毫米波雷达相比的红外系统相比,毫米波雷达的一个优点是可以直接测量距离和速度信息。
毫米波雷达缺点:
(1)与微波雷达相比,毫米波雷达的发射机的功率低,波导器件中的损耗大。
(2)行人的后向散射截面较弱,如果需要探测行人,雷达的探测阈值需要设低,其负面效应可能会有更多虚报物体出现。
(3)毫米波器件昂贵,现阶段不能大批量生产装备。
一些公司
2.4超声波雷达
自动驾驶(四十七)---------超声波雷达简介-CSDN博客
对温度敏感、超身边散射角度大
2.5惯性导航
自动驾驶传感器(六):惯性导航IMU原理 - 知乎 (zhihu.com)
惯性导航的基本工作原理是以牛顿力学定律为基础,通过测量载体在惯性参考系的加速度,将它对时间进行积分,且把它变换到导航坐标系中,就能够得到在导航坐标系中的速度、偏航角和位置等信息。
3.传感器标定
计算机视觉基础——相机标定 - 知乎 (zhihu.com)
传感器的标定效果将会直接影响下游感知、定位融合的应用。
也可参考我此片文章:
《多传感器融合感知技术笔记》之——2.相机标定_Akaxi_相机内参矩阵标定python的github-CSDN博客
使用工具包利用棋盘格对针孔相机进行标定,求相机的内参矩阵,畸变系数,并且还原校正后的相机图像。【使用了三种相机标定方法】
1.基于Python的OpenCV库进行摄像头的标定;
2. 基于Ubuntu系统ROS环境下使用棋盘图进行相机标定;
3. 基于Matlab应用使用棋盘图进行相机标定。
最重要的得到相机的标定参数
4.计算机视觉
这本书很好的阐释了计算机视觉的基础,非常推荐阅读:《数字图像处理》冈萨雷斯 第三版
4.1边缘检测
机器视觉学习(三)边缘检测 - 知乎 (zhihu.com)
数字图像处理:边缘检测(Edge detection) - 知乎 (zhihu.com)
边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。
这些包括(i)深度上的不连续、(ii)表面方向不连续、(iii)物质属性变化和(iv)场景照明变化。 边缘检测是图像处理和计算机视觉中,尤其是特征提取中的一个研究领域。
要进行边缘检测,就会要有滤波器来进行滤波,就有许多的算子,其实就是一些个矩阵,这些矩阵与原图像的灰度值矩阵进行卷积等操作,就可以提取出图像的一些特征~
4.2图像分割
这篇文章写得挺好的:最全综述 | 图像分割算法 - 知乎 (zhihu.com)
图像分割是计算机视觉的基础任务之一,也是被广泛研究的方向,在自动驾驶中有重要的应用,然而至今未能完全解决。图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。利用图像分割技术,可以有效将前景和背景信息分离,并可以进一步分离出物体信息。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘检测的分割方法以及基于深度模型的分割方法等。
就像人眼将主体事物提取出来,分割东西
4.3神经网络
神经网络其实是一个非常宽泛的称呼,它包括两类,一类是用计算机的方式去模拟人脑,这就是我们常说的ANN(人工神经网络),另一类是研究生物学上的神经网络,又叫生物神经网络。
神经网络又称人工神经网络 (ANN) 或模拟神经网络 (SNN),是机器学习的子集,同时也是深度学习算法的核心。 神经网络其名称和结构均受到人脑的启发,可模仿生物神经元相互传递信号的方式。
人工神经网络 (ANN) 由节点层组成,包含一个输入层、一个或多个隐藏层和一个输出层。 每个节点也称为一个人工神经元,它们连接到另一个节点,具有相关的权重和阈值。 如果任何单个节点的输出高于指定的阈值,那么会激活该节点,并将数据发送到网络的下一层。 否则,不会将数据传递到网络的下一层。
神经网络依靠训练数据来学习,并随时间推移提高自身准确性。 而一旦这些学习算法经过了调优,提高了准确性,它们就会成为计算机科学和人工智能领域的强大工具,使我们能够快速对数据进行分类和聚类。 与由人类专家进行的人工识别相比,语音识别或图像识别任务可能只需要几分钟而不是数小时。 Google 的搜索算法就是最著名的神经网络之一。
一些比较好的神经网络综述论文
[1]周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(06):1229-1251.
[2]张驰,郭媛,黎明.人工神经网络模型发展及应用综述[J].计算机工程与应用,2021,57(11):57-69.
[3]常亮,邓小明,周明全等.图像理解中的卷积神经网络[J].自动化学报,2016,42(09):1300-1312.DOI:10.16383/j.aas.2016.c150800.
5.障碍物检测
环境感知对象主要包括行驶路径、周边物体、驾驶状态、驾驶环境。其中行驶路径主要包括结构化道路和非结构化道路两大块,其中结构化道路包括车道线、道路边缘、道路隔离物、恶劣路况的识别,非结构化道路包括可行驶路径的确认和前方路面环境的识别。周边物体主要包括车辆、行人、地面上可能影响车辆通过性、安全性的其他各种移动或静止障碍物的识别及各种交通标志的识别,行驶路径部分的车道线检测以及周边物体中的障碍物检测、红绿灯检测。
5.1基于图像障碍物检测
这里就是主要讲解了YOLO的算法,并且说了在现实生活中,更多用的是YOLO、Fast RCNN等检测三维的障碍物,需知道障碍物的距离、位置,所以就需要综合单目摄像头、激光雷达、双目摄像头等方案,通过图片来检测障碍物。
此书主要讲解了YOLO的算法,下面是我在学习《多传感器融合感知技术》时,岑老师讲解的YOLO原理,和我查找的一些资料。
图解目标检测 之 YOLO 算法 最全原理详解_yolo算法原理-CSDN博客
在检测障碍物上可以试着部署YOLO
5.2基于激光雷达的障碍物检测
5.2.1基于几何特征和网格
几何特征包括直线、圆和矩形等。基于几何特征的方法首先对激光雷达的数据进行处理,采用聚类算法将数据聚类并与障碍物的几何特征进行对比,对障碍物进行检测和分类。利用几何特征的方法在无人驾驶方面较为常见。
5.2.2VoxelNet障碍物检测
为了方便进行障碍物检测,激光雷达数据需要一定的人力对数据进行整理,对于距离较远的物体,激光雷达扫描出的物体轮廓信息在网络进行识别时效果可能并不理想,为此需要投入更多的人工流程去处理激光雷达数据。为了解决这一难点,减少人力,在VoxelNet 的研究中,消除了对点云进行手动提取特征的过程,并提出了统一的端到端的三维检测网络。
5.3基于视觉和激光雷达融合的障碍物检测
总体来讲,摄像头方案成本低,可以识别不同的物体,在物体高度与宽度测量、车道线识别、行人识别准确度等方面有优势,是实现车道偏离预警,交通标志识别等功能不可缺少的传感器,但作用距离和测距精度不如毫米波雷达,并且容易受光照、天气等因素的影响。
毫米波雷达受光照和天气因素影响较小,测距精度高﹐但难以识别车道线、交通标志等元素。另外,毫米波雷达通过多普勒偏移的原理能够实现更高精度的目标速度探测,同时通过视觉可以获得充分的语义信息,而激光雷达则可以获得准确的位置信息,所以融合两种方法可以得到更好的检测效果。下面介绍几种融合方法。
意思就是摄像头和雷达在单独运用时,各有利弊,适用于不同的场景,但是二者相互融合可以取长补短,相互吸收优点,在融合时候运用在自动驾驶的障碍物检测效果较好。
深度学习基于摄像头和激光雷达融合的3-D目标检测 - 知乎 (zhihu.com)
6.车道线检测
车道线属于道路交通标志符号,我国有一套独立的标准:GB 5768.2-2022
http://c.gb688.cn/bzgk/gb/showGb?type=online&hcno=15B1FC09EE1AE92F1A9EC97BA3C9E451
国家标准文件查询系统:国家标准全文公开 (samr.gov.cn)
6.1传统计算机视觉
基于灰度特征的检测方法主要通过提取图像的灰度特征来检测道路边界和道路标识。可以通过直接采集灰度图进行处理,也可以通过图像转换将原始图像转为灰度图。在车道图像中,路面与车道线交汇处的灰度值变化较剧烈,可以利用边缘增强算子突出图像的局部边缘,定义像素的边缘强度,通过设置阈值的方法提取边缘点。常用的算子有Sobel算子、Prewitt算子、Log算子和 Canny算子。
也可以利用颜色进行车道线的识别
也可以利用纹理来进行车道线识别,但是大多是灰度+颜色+纹理混合识别车道线,本书这里大概就说了和第4点-计算机视觉差不多的内容
6.2深度学习方案
传统的车道线检测方法需要人工对道路场景进行特征提取和模型建立,而车道线种类繁多,道路结构复杂,传统方法工作量大且健壮性差。随着深度学习的兴起,CNN将视觉理解推向了一个新的高度。把车道线检测看作分割问题或分类问题,利用神经网络去代替传统视觉中手动调节滤波算子的方式逐渐被提出。
可参考实战博客:深度学习车道线检测之 LaneNet (使用tensorflow2.4.0跑通)-CSDN博客
6.3激光雷达
当我看到激光雷达出现在车道线上检测时,出现一个疑问:为什么可以?读完发现就是利用了车道线喷涂材质材料的反射率和柏油马路的反射率不同原理,激光雷达获取到的信息不同,即可对车道线进行检测。
7.红绿灯检测
现在大多目标检测的方法都是基于Faster RCNN、YOLO和SSD,但是它们在小目标检测上的效果都不理想。红绿灯这种小目标在图片中所占据的像素较少,对于标准的卷积神经网络(VGG,ResNet , DenseNet等)来说,输出的特征一般都会是图片大小的1/32,对于小目标来说,细节丢失较严重,这就增加了小目标检测的难度。如果删除特征提取网络的一些层数或者部分下采样层,就会缩小感受野,衰弱特征的语义信息﹐反而更影响检测效果。
7.1传统检测
7.2深度学习检测
这里主要介绍有三种检测方式:金字塔、SSD、高精地图融合
7.2.1 特征金字塔
参考连接:FPN特征金字塔 完整详解 【论文笔记】_特征金字塔有几层-CSDN博客
特征图金字塔网络FPN(Feature Pyramid Networks)是2017年提出的一种网络,它主要解决的是物体检测中的多尺度问题,在基本不增加原有模型计算量的情况下,通过简单的网络连接改变,大幅度提升了小物体的检测性能。
7.2.2 特征融合SSD
目标检测|SSD原理与实现 - 知乎 (zhihu.com)
特征融合SSD是一阶段的方法,在SSD的基础上进行了针对小目标检测的优化,使卷积特征更适合在无人驾驶中的红绿灯检测,与二阶段算法相比,在满足实时性的同时,也有不错的准确率。
7.2.3 高精地图融合
首先通过使用检测算法,确定红绿灯在图像中的位置以及它的类别,然后将红绿灯与高精地图上记录的红绿灯进行比对(map matching),比对之后无人驾驶汽车就可以得到红绿灯的世界坐标,确定红绿灯所对应的道路,从而帮助无人驾驶系统做出正确的决策。当无人驾驶汽车因为遮挡或者算法等原因无法检测到红绿灯时,高精地图可以告知系统红绿灯的信息,从而确保行车安全。
也是需要红绿灯检测 + 高精地图定位红绿灯,更加安全
8.场景流
场景流(scene flow)可以理解成空间中场景的三维运动场,即空间中每一点的位置信息和其相对于摄像头的移动。具体地,场景流估计的一种方式是光流估计和深度估计的结合。
8.1深度估计
8.1.1 激光雷达深度估计
自动驾驶相机-激光雷达深度融合综述及展望 - 知乎 (zhihu.com)
8.1.2 图像深度估计
可以分为单目和双目,对识别到的物体距离进行图像深度估计
参考链接:双目视觉——获取图像中的物体的深度信息(三维坐标)_双目视觉求三维坐标-CSDN博客
基于双目深度估计的深度学习技术研究-腾讯云开发者社区-腾讯云 (tencent.com)
9.V2X技术
9.1 V2X
自动驾驶技术-环境感知篇:V2X技术的介绍_自动驾驶必不可少的感知手段是v2x技术-CSDN博客
V2X(Vehicle-to-Everything,车用无线通信技术)是将车辆与一切事物相连接的新一代信息通信技术。V代表车辆,X代表任何与车交互信息的对象,主要包含车、交通路侧基础设施、人以及网络,分别采用以下缩写V,I、P和N表示。具体信息模式包括:
车与车之间(Vehicle-to-Vehicle,V2V)
车与人之间(Vehicle-to-Pedestrian,V2P)
车与网络之间(Vehicle-to-Network,V2N)
车与路侧基础设施之间(Vehicle-to-Infrastructure,V2I)
V2X将“人、车、路、云”等交通参与要素有机地联系在一起,不仅可以支撑车辆获得比单车感知更多的信息,促进自动驾驶技术创新和应用;还有利于构建一个智慧的交通体系,促进汽车和交通服务的新模式,新业态发展,对提高交通效率、节省资源、减少污染、降低事故发生率、改善交通管理具有重要意义。
9.2车路协同技术
车路协同系统(Cooperative Vehicle Infrastructure System,CVIS)是基于无线通信、传感探测等技术获取车辆和道路信息,通过车-车、车-路通信实现信息交互和共享,从而实现车辆和路侧设施之间智能协同与协调,实现优化使用道路资源﹑提高交通安全、缓解拥堵的目标。近些年,智能汽车和无线通信技术的快速发展与应用,实现了车路协同技术在交通领域的发展。车路协同是智能交通系统(ITS)的重要子系统,也是欧,美、日等交通发达国家和地区的研究热点。
车路协同系统(CVIS)作为ITS的子系统,是将交通组成部分——人、车、路、环境——利用先进的科学技术(包括现代通信技术,检测感知技术以及互联网等)以实现信息交互的交通大环境;通过对全路段、全时间的交通动态信息采集与融合技术来提升车辆安全,道路通行能力以及智能化管理程度﹐达到加强道路交通安全高效利用道路有限资源﹑提高道路通行效率与缓解道路拥堵的目标,形成安全.高效、环保﹑智能的交通环境。
10.可行驶区域检测
自动驾驶系(四)——环境感知之可行驶区域检测技术 - 知乎 (zhihu.com)
可以基于颜色、纹理或者边缘检测,还有一种就是基于深度学习的检测方式。
用于自动驾驶的可行驶区域分割方法总结 - 知乎 (zhihu.com)
在自动驾驶系统中,可行驶区域分割是一项重要的任务。可行驶区域的提取是ADAS的关键技术,旨在使用传感器感知技术感知驾驶车辆周围的道路环境,识别并分割出当前驾驶场景下可行驶的区域,防止偏离车道或违规驾驶。可行驶区域分割的精度和鲁棒性直接决定了车辆能否正常行驶。
1. BiFPN: 用于道路分割的双向融合网络
2. 将表面法线信息应用于地面移动机器人的可行驶区域和道路异常检测
3. RNGDet: 借助Transformer在航拍图像中检测道路网络图
4. YOLOP: 你只看一次的全景驾驶感知
5. YOLOPv2: 更好、更快、更强的全景驾驶感知
6. HybridNets: 端到端感知网络
11.多目标跟踪
多目标跟踪MOT(Multiple Object Tracking)最全综述-CSDN博客
动态场景理解即图像序列分析,是指感知系统在给定的图像序列中检测运动物体,并对其进行识别、跟踪等。感知系统不仅仅是从单张图像获取信息,而是结合图像序列中的连续帧图片信息来完成固定任务。
多目标跟踪,一般简称为MOT(Multiple Object Tracking),也有一些文献称作MTT(Multiple Target Tracking)。在事先不知道目标数量的情况下,对视频中的行人、汽车、动物等多个目标进行检测并赋予ID进行轨迹跟踪。不同的目标拥有不同的ID,以便实现后续的轨迹预测、精准查找等工作。
MOT是计算机视觉领域的一项关键技术,在自动驾驶、智能监控、行为识别等方向应用广泛。如下图所示,对于输入视频,输出目标的跟踪结果,包括目标包围框和对应的ID编号。理论上,同一个目标的ID编号保持不变。
多目标跟踪中即要面对在单目标跟踪中存在的遮挡、变形、运动模糊、拥挤场景、快速运动、光照变化、尺度变化等挑战,还要面对如轨迹的初始化与终止、相似目标间的相互干扰等复杂问题。
11.1目标外观模型
包括形状+特征
11.2目标运动估计
这类模型往往应用在基于优化的跟踪算法中,其通过约束条件建立目标能量模型,以此来惩罚违反运动模型的可能目标。常见的运动约束条件有如下几种。
(1)临近性约束:认为目标位置不会在一帧中发生显著变化
(2)最大速度约束:限制目标在一帧中可能出现的最大位移,如只有落在圆圈内的位置才有可能是该目标正确的关联位置
(3)速度稳定约束:速度的大小和方向不会发生剧变
(4)相似运动约束:处在相邻区域内的目标速度相似
(5)刚性约束:处于同一个刚性物体上的两个质点相对位置不变
11.3路径实时预测
这里是百度Apollo公司提出的LSTM长短期记忆网络路径预测算法。
11.4行人手势识别
10分钟自定义搭建行人分析系统,检测跟踪、行为识别、人体属性All-in-One! (paddlepaddle.org.cn)
这里可以参考百度飞桨的实现,又分为姿态和动作。
---------------------------------------------------正在看书喵-----------------------------------------------------
2023.4.12
渝北仙桃数据谷