【论文学习】行人检测——CVPR：通过MIMS在低分辨率图像中做行人检测

本文链接：https://blog.csdn.net/DL_wly/article/details/90200612

本文提出了一种新的行人检测方法，称为MIMS（Multi-scale Intrinsic Motion Structures），尤其适用于低分辨率图像。通过对固有运动结构进行多尺度探索，MIMS在噪声和光流估计中展现出鲁棒性，有效地处理低分辨率图像中行人检测的挑战。通过张量投票算法提取IMS特征，结合尺度和维度，实现对行人运动模式的精确捕捉。实验表明，MIMS在行人检测中优于现有技术，尤其在区分行人与其他运动物体方面表现出色。

摘要由CSDN通过智能技术生成

论文：Pedestrian Detection in Low-resolution Imagery by Learning Multi-scale Intrinsic Motion Structures (MIMS)

通过学习多尺度固有运动结构，在低分辨率图像中做行人检测

由于地面采样距离（GSD）低，图像帧速率低，检测距离大幅面广域图像距离的行人是一个具有挑战性的问题。在这种情况下，基于外观提示的方法主要失败，因为行人的尺寸只有几个像素。基于帧参考和基于光流的方法也因空中视频中的噪声，相机抖动和视差而导致较差的检测结果。为了克服这些挑战，我们提出了一种提取行人检测行人运动模式的多尺度内在运动结构特征的新方法。 MIMS特征编码对象的固有运动属性，即位置，速度和轨迹形状不变量。提取的MIMS表示对噪声流估计是鲁棒的。在本文中，我们对所提出的方法进行了比较评估，并证明了MIMS在辨别低分辨率机载视频中的行人方面优于现有技术。

一、介绍

近年来，大幅面广域传感器越来越多地被用于持续的监视任务，包括边界安全，部队保护和空中监视。广域传感器通常放置在这些应用的高塔，航空状态或无人驾驶飞行器上。使用这种传感器的目标是在尽可能大的距离（最好在几十平方公里）的范围内以最大可能的距离检测感兴趣的目标和活动。因此，这些传感器具有较低的接地采样分辨率，通常为0.3m-0.5m的接地采样距离（GSD），以便由于大图像尺寸而覆盖大面积和低帧率（2-5Hz）。自动分析工具对于这种传感器至关重要，因为所监测的区域的大小和要跟踪的物体的数量超出了连续的手动检查。

现有广泛传感器的大多数自动化分析工具都集中在车辆跟踪/分类上。目前很少有现有工作集中在大尺寸广域成像仪的行人检测跟踪中。这是因为在广域监控中跟踪行人有独特的挑战（见图1）。广域检测的主要挑战是，极低的分辨率，即GSD每像素约0.3m至0.5m，因此行人只能在图像中覆盖4到9个像素，请参见图1.在这个尺度上，典型的基于形状或外观的对象检测模型，如HOG [5]，可变形部分模型[6]和基于形状的模型[2]不再对背景提供显着的区别。

图1：（a）显示了广角图像中单帧的部分。即使在放大视图中，行人也是一个黑点，大小几个像素。（b）示出了覆盖在背景顶部的50帧前景，其中诸如汽车行人（1），车辆（2,3,4,5）和视差（6,7）的移动物体的轨迹变得可见。值得注意的是，这种重叠的观点是在稳定之后。（c）示出残留像素，即与中间图像的背景不同的像素。剩余像素可以来自三个类别：移动物体，例如车辆，行人和视差，这些物体是静态的，但由于地平面上方的结构和注册误差而不能被全局运动所补偿。在所有的残差像素中，只有很小一部分属于行人，在右图像中被标记为红色像素。我们的目标是通过使用自我内在动作模式检测行人。

从广域空中图像检测行人的一个可行解决方案是利用运动。大多数现有的基于运动的方法[18,21]使用背景减法，帧差和光流直方图（HOF）作为分类特征。这些基于运动的特征对图像配准中的噪声和光流估计敏感。因此，当行人在图像中仅包含几个像素时，这些特征的使用通常会导致高的误报率。

为了解决上述挑战，我们首先观察图1c中的剩余运动图像，后者是补偿全局摄像机运动后的运动。剩余运动来自运动物体（例如行人和车辆），视差和不可避免的注册误差。为了区分行人与其他人的运动，人们可以直接使用位置或速度来进行检测，但是这些特征不区分，因为不同类型的物体或噪声可能具有相似的位置，速度或方向。然而，我们认为，来自相同类型对象（例如，行人）的运动在诸如（x，y，vx，vy）的空间中形成一个歧管，并且我们可以从该空间中选择捕获对象的固有属性。一个这样的固有属性是运动拓扑的局部维度，即位置，速度和轨迹形状不变。因此，我们提出了一种基于局部流形运动拓扑来寻找局部维度做行人检测的新颖的方法。

然而，没有指定本地拓扑的比例，维度可能不是有意义的。作为一个例子，当从远方观看时，行人可以被视为一个点，而在仔细观察时它是一个3D对象。因此，我们将维度和尺度配对来建模行人的运动模式。这导致两个问题：1）如何鲁棒地估计维度; 2）如何获取正确的尺度。为了回答这些问题，我们提出了一种基于学习的张量投票方法。基本上，张量投票提供了运动模式的局部维度及其在特定尺度上的显着性。然而，在实践中，很难手动选择正确的尺度。因此，在我们的工作中，我们使用张量投票来生成各种抽样尺度的全部特征，并采用特征选择形成紧凑的区分表示。这些提取的特征编码了各种尺度的行人运动模式的内在特性。我们将这些特征称为多尺度内在运动结构（MIMS）功能。

总之，我们的贡献包括：（1）我们提出了一种新颖的方法来发现航空视频中行人检测的MIMS功能。 MIMS表示对于噪声是鲁棒的，并且对轨迹的位置，速度和形状是不变的。（2）介绍了不变特征选择的学习策略，（3）对WAAS视频提出的方法进行了全面评估，并