【人群计数】Crossing the Line: Crowd Counting by Integer Programming with Local Features

最新推荐文章于 2023-04-28 18:37:48 发布

Swocky

最新推荐文章于 2023-04-28 18:37:48 发布

阅读量778

点赞数

分类专栏：计算机视觉文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/Swocky/article/details/107299984

版权

计算机视觉专栏收录该内容

12 篇文章 1 订阅

订阅专栏

Abstract

作者提出了一种对于视频中穿过关注线的行人数量实时整数规划方法。视频首先被转换为时序序列，然后人数会通过一系列有重叠的窗口进行估计，使用了一种从局部特征到数量的回归函数进行映射。考虑到滑动窗口中的计数是相应时间间隔内的瞬时计数之和，提出了一种整数规划方法来恢复每帧中穿过区间的行人数量。在一个特定的时间间隔内进行积分，可以得到行人过路的累计计数。

1. Introduction

人群计数一般是估计感兴趣区域中的人数或者穿过一条感兴趣线段的人数。其应用也十分广泛，无论是在监控还是城市规划角度，甚至可以扩展到动物、细胞等。可见这个课题还是很重要的，但是它存在几个挑战：行人遮挡；场景的透视图使人在靠近摄影机时显得更大，移动更快。
大多数以往的工作关注解决ROI计数问题，基于将特征回归为人数的方法。通过绕过中间步骤，如人群检测，这在人群聚集严重的人群中很容易出错，这些通过回归方法进行的计数即使在相当大的人群中也能实现准确的计数。本文关注的是LOI计数，目标是为通过一条特定的线的人计数。具体而言，目的是估计累积计数（自视频开始以来的总计数）和瞬时计数（在任何特定时间或短时间窗口的计数）。一种比较通俗的想法是分别计算线两边ROI的人数，然后计算差值，但是当同时有人进入和离开某一区域时，就会出现错误。
目前LOI最好的方法是基于在一个时间帧中提取并计算人群blob。但是这种blob-center的方法存在很多问题

只有当人完全穿过这条线的时候才会计数，当很多人同时穿过时会造成计数的不连续性。
由于严重的遮挡，大的blob中的计数是很不精确的。
目前基于blob方法的评价方法都是基于blob中的真实人物，而不是实际的过路人

另外，这些方法需要时空正则化来解决因为相机透视效果造成的行人大小不同与速度不同。当前的透视规范化方法要求在视频中的不同位置标记参考人。对于任意视频（例如来自互联网），如果没有合适的参考，则无法应用这些规范化技术。
为了解决上述问题，作者提出了一种新的线计数算法，该算法利用局部特征和回归估计瞬时粒子数，而无需进行透视归一化。作者的主要贡献如下：

为了克服“以斑点为中心”方法的缺点，作者提出了一种积分规划方法来估计LOI上的瞬时计数，从一组速度切片图像中的ROI计数。作者的累积计数比“以斑点为中心”的方法更平滑和更精确。
作者提出了一种新的局部方向梯度直方图（HOG）特征，它对透视和速度的影响是鲁棒的，即使没有时空归一化也能得到精确的计数。
第三，作者通过实验证明，我们的方法可以在两个具有挑战性的数据集上获得累积和瞬时LOI计数的最好效果。

2. Related work

3. Local HOG feature

图3a示出具有向两个方向行走的相当大的人群的时间切片图像的示例。由于摄像头的倾斜角度接近45度，行人被遮挡得很重。在大多数情况下，被阻塞的行人的躯干或腿是看不见的。因此，定向梯度（HOG）特征和检测器的标准直方图在这种情况下无法正常工作。本文提出一种局部HOG描述子，用于人群统计。与标准HOG不同，标准HOG是一个完整的人的描述符，而local hog可以独立地描述人的各个部分。因此，在拥挤的场景中，仍然可以从部分闭塞的人中提取有意义的描述符。
作者定义一个局部HOG描述子作为标准HOG特征的一个“块”，从一个8×8的图像块中提取。每一块包含4个4×4“空间单元”，从中提取局部方向梯度直方图。图3b示出了在时间切片图像中从人群中提取的局部HOG特征的示例。请注意局部HOG特征如何表示人的头、肩、侧或腿和脚。作者还考虑了矩形图像块（如8×16）和其他尺寸的图像块，发现8×8图像块的性能最好。最后，作者考虑使用空间高斯核（类似于SIFT描述符）对梯度大小应用权重，但这并没有提高计数精度。
提取的局部HOG特征的数量取决于每个视频帧中人群片段的大小，由于密集采样，每帧可能提取数百个局部特征。因此，需要进一步的处理，将这些局部特征集合归纳为一个简洁的特征向量来描述人群。局部HOG特征集用一个词包直方图来概括，其中每个bin表示一个局部HOG码字在图像中出现的次数。图3c描绘了直方图的一个箱子的值与人群段中的人数的关系。bin值随人口数呈线性变化，说明local hog可以作为一种适合人群统计的特征。最后，作者不使用直方图标准化方法（如TF、TF-IDF）。标准化将混淆片段中绝对数量的码字，使来自大群体的直方图与来自小群体的直方图相似，这会混淆回归函数。

4. Line counting framework

在给定输入视频序列的前提下，首先将视频分割成感兴趣的人群，如对应不同方向运动的人群，通过对LOI随时间的采样，形成时间切片图像和时域切片分割。接下来，在时间片上放置滑动窗口，形成一组时间roi。从每个时间ROI中提取特征，并用回归函数估计每个ROI中的人数。最后，利用整数规划的方法从时间感兴趣区计数集合中恢复瞬时计数。

4.1 Crowd segmentation

首先将运动分割应用于视频，以将计数算法集中于不同的感兴趣人群（例如，朝相反方向移动）。作者使用混合动态纹理的运动模型来提取具有不同人群流的区域。视频被分成一组时空视频立方体，从中可以使用EM算法学习混合的动态纹理。然后通过将视频块分配给最有可能的动态纹理分量来形成运动分割。静态或非常缓慢移动的行人将不包括在运动分割中，这是可取的，因为计数算法应忽略已停在线路上的人，以避免重复计算。

4.2 Line sampling and temporal ROI

与flow-mosaicking不同，作者使用固定线宽的线采样来获得时间切片图像。如图4所示，在每帧的同一行对输入的视频图像及其相应的分割进行采样。采集采样的图像切片和切片，形成时间切片图像和时间切片分割，切片图像中的每一列对应于给定时间的LOI。为了获得时间感兴趣区，在切片图像上水平移动一个滑动窗口，使用一个像素的步长。

4.3. Feature extraction

从每个时间感兴趣区域的人群片段中提取特征。在本文中，作者同时考虑了低层次的全局特征和局部特征。
作者使用了30个全局特征，这些特征测量了线段的各种属性、内部边缘和纹理（见表1）；对于局部特征，作者使用我们提出的局部HOG特征和bag-of-words模型。在时域ROI中，从人群段密集采样的斑块中提取一组局部HOG特征。然后使用bag-of-words模型对局部HOGs集合进行总结，如第3节所述，为每个ROI的每个人群片段生成一个单一的特征向量。

4.4. Spatial-temporal normalization

由于时间切片图像是用一条固定宽度的线生成的，所以人的宽度会随着其速度的变化而变化。特别是，在LOI上缓慢移动的人比那些快速移动的人显得更宽，如图5所示。因此，在特征提取过程中需要进行时间归一化以适应人的速度（特征）。时间权重图wv（x，y）由每个LOI像素的切向速度形成，用光流[15]估计（参见图6b）。快速移动的人有更高的权重，因为他们的特征出现的时间更短。

除了时间规范化，还必须对特征进行规范化，以适应角度相机的透视效果。作者按照[2]生成空间透视权重图wp（x，y）（见图6c）。
当从图像中提取低层特征时，这两种加权映射都被应用，产生了表1中总结的时空归一化。对于区域特征，每个像素采用w_pw_v加权，对于大多数边缘和纹理特征，每个像素采用√w_pw_v加权。边缘方向特征对特定的边缘角θ∈{0◦，30° , ……， 150°}。例如，当边水平定向（θ=90°时），由于在空间方向上没有边的组件，因此只应用时间权重。
对于局部HOG特征，作者通过wp和wv缩放高度和宽度来调整图像面片的大小。这将局部HOG特征提取规范化为一个通用的参考大小。然而，局部HOG特征的标准化是不必要的；作者的实验结果表明，具有和不具有时空归一化的局部HOG的性能相似，这表明该特征对透视和速度变化具有鲁棒性。
最后，请注意flow mosaicking通过使用可变线宽对LOI进行采样来执行时间归一化，其中当前宽度基于群组blob的平均速度。因为必须对整个blob应用相同的线宽，所以包含快速和慢速用户的blob将不会被正确地规范化。与[1]相比，作者使用固定的线宽度和每像素的时间规范化，这可以更好地处理人群中以不同速度移动的大团块（例如，图6a和6b）。

4.5. Count Regression

对于每个时间ROI，使用回归函数预测ROI中每个人群段中的计数，该回归函数直接映射特征向量（输入）和人群段中的人数（输出）。高斯过程回归（GPR）对人口统计任务显示了有希望的结果。然而，行人数量是离散的非负整数值，因此不适合使用GP回归来建模连续的实值输出。为了充分利用贝叶斯推理，作者使用贝叶斯泊松回归，它直接学习具有离散整数输出的回归函数。作者采用RBF核函数和线性核函数相结合的方法，与单一的RBF核函数、线性核函数、Bhattacharyya核函数、his图交集核函数和卡方RBF核函数相比，性能最好。图7a示出了用于时间roi的预测计数的示例，以及ground truth。

4.6. Instantaneous count estimation

在最后阶段，使用整数规划公式从时间ROI计数中恢复LOI上的瞬时计数。第i个时间ROI跨越时间i到i+L−1，其中L是ROI的宽度。设ni为第i个时间ROI中的计数，sj为时间j时LOI上的瞬时计数。时间ROI计数ni是ROI时间窗口内瞬时计数sj的总和，

定义ROI计数的向量n=[n1，…，nN]T和s=[s1，…，sM]T，其中n是时间ROI的数量，M是视频帧的数量，我们有

n和A都是已知的，因此找到s是一个信号重构问题，在计数sj上有非负整数约束。作者建议使用一个带有和平方重构误差的整数规划问题来恢复瞬时计数

另一个可能的解决方案是放宽对sj的非负整数约束。设sj为实数，作者得到一个标准的最小二乘公式，其中s=a†n，其中a†是a的伪逆。但是，记录的sj既有正的，也有负的，不能解释为计数（见图7c）。强制执行非负实数约束，sj≥0，产生一个非负最小二乘问题，恢复的sj更接近计数（见图7d）。然而，这种方法会导致定位误差，其中单个计数在其邻域内被分割成几个小的实值计数（参见图7d中的箭头）。使用整数规划公式解决了这些定位问题（图7b箭头）。

5. Experiments

5.1. Pedestrian datasets

在的实验中，作者考虑了两个数据集，UCSD人计数数据集和LHI行人数据集。图8a显示了来自UCSD数据集的一个示例帧。视频是由一个固定的数字摄像机捕捉的，摄像机的视角是在UCSD的一条走道上。该数据集包含2000个视频帧，帧大小为238×158，帧速率为10fps。LHI数据集包含三种类型的视频，按摄像机的倾斜角度分类。在作者的实验中使用了摄像机倾斜角度为40度的3-3视频，这是LHI中最具挑战性的视频，因为遮挡量很大。图8b显示了一个示例帧。3-3视频的帧大小为352×288。

5.2. Experimental setup

对于UCSD数据集，作者遵循[2]中的实验方法，其中训练集由800帧（600帧到1399帧）组成，剩下的1200帧用作验证的测试集。对于LHI数据集，训练集是前800帧，后面1200帧是测试集。LOI位置也如图8所示。对于UCSD，使用第4.1节中描述的方法，将人群分成两个在走道上反向移动的组件（右和左）。对于LHI来说，人群只是朝着正确的方向前进。
作者使用其提出的框架估计LOI上的瞬时和累积计数。滑动窗口的长度为238像素。作者测试了全局低层特征[2，4]和提出的局部HOG特征，使用和不使用时空归一化。回归模型从训练集（UCSD或LHI）中学习，并在相应的测试集上进行预测。为了进行比较，作者还使用flow-mosaicking算法预测累积计数[1]。这两种方法运行在相同的运动分割和光流图像上。
累积计数结果用均方误差（MSE）和预测计数与实际人数之间的绝对误差（绝对误差）进行评估，在测试集中的所有帧上取平均值。对于基于blob的流拼接，本质上不能产生平滑的累积计数，作者还考虑了一个“blob-ground-truth”，它只在预测的计数发生变化时更新，即当一个blob被计数时。
使用召回距离曲线来衡量瞬时计数预测的性能。地面真值瞬时计数和预测值成对匹配，使用匈牙利算法寻找具有最小时间距离的对（即，将图11b中的红星与蓝线匹配）。通过扫描阈值距离d，记录小于d的配对匹配的分数，形成召回距离曲线，该曲线代表了在穿越地面真相的持续时间d内检测到越界者的准确性。

5.3. Experimental results

累积计数结果汇总在表2中，累积计数和瞬时计数的曲线如图所示。首先比较UCSD数据集上的不同特征集，局部HOG特征在左方向与全局低层特征（0.6040误差vs 0.5342）取得可比较的结果。在正确的方向上，局部HOG的误差明显小于全局特征（0.6883 vs 1.5067）。由于右方向包含更大的人群，这表明局部HOG特征在计算部分闭塞人群方面更为有效。此外，当不使用时空正态化时，局部HOG特征的计数误差几乎相同，从0.6050/0.6883增加到0.6083/0.7100。另一方面，对于正确方向，全局特征的误差显著增加，例如从1.5067增加到2.4158。这说明局部HOG特征对透视和速度效应是鲁棒的，而全局特征对这些影响是敏感的。
作者使用局部HOG的LOI计数框架比flow-mosaicking具有更低的误差（对于基本真实性和blob背景真实性）。flow-mosaickin在正确的方向上有一个特别大的误差（8.2400）。在具有大团块的拥挤场景中，flow-mosaickin方法往往具有较高的误差，如图14和图16所示。在LHI视频上也得到了类似的结果，证明了作者的框架比flow-mosaickin具有更低的累积计数误差。
恢复的瞬时计数如图2所示，使用图9中的召回距离曲线来评估准确度。在UCSD数据集上，作者的方法可以在2秒内（20帧，10帧/秒）正确识别80%以上的行人；在LHI数据集上，几乎90%的行人在2秒内（50帧，25帧/秒）正确识别。作者的方法可以产生比flow-mosaickin更精确的瞬时计数，这是一种“以斑点为中心”的方法。相比之下，在UCSD上，流镶嵌可以在2秒内识别出55%和75%的行人，而在LHI上可以识别72%。
最后，图10a示出了不同时间间隔（窗口长度）的平均绝对计数误差，图10b示出了相应的地面真实人数的平均值。对于作者的方法，无论区间宽度如何，计数误差都是相对稳定的，而流动拼接的计数误差则随着间隔宽度和人数的增加而增加。在补充材料中可以找到两个关于UCSD和LHI数据集的行计数结果的视频。

6. Conclusion

本文提出了一种新的行计数框架，该框架基于时间切片图像上滑动窗口上的ROI计数，利用整数规划来恢复LOI上的瞬时计数。作者在两个具有挑战性的数据集上验证了其框架。结果表明，与全局低层特征相比，所提出的局部HOG特征对透视和目标速度变化具有更强的鲁棒性，并且在不使用时空规范化的情况下表现出同样的效果。此外，与“以斑点为中心”的方法（如flow-mosaickin）相比，作者的方法可以生成更精确的瞬时和累积计数，特别是在拥挤的场景中。

总结

实现思路

运动分割-线采样-特征提取-时空归一化-计数回归-瞬时人数估计
首先通过EM算法学习混合纹理运动模型，从而对最有可能运动对区域进行分割。然后便可以根据时间对某条线上对人进行采样与计数，得到一个时间ROI后进行全局、局部特征对提取，得到的特征选择性进行归一化以降低透视与遮挡的影响，最后对这个特征进行回归，实现一个从特征向量到人数到映射，针对这种离散非负整数到情况使用贝叶斯柏松回归，使用RBF和线性核到结合。这样估计得到roi中到人数后可以使用整数规划公式对某一个时刻LOI上进行计数，一般采用mse实现，如果直接求解析解会存在问题。

核心贡献与步骤创新

首先是作者提出对这种基于LOI的计数框架，得到时间切片序列然后计算roi，再对roi进行整数规划得到实时通过对值，这个思路是很新颖的。然后对于其中的特征提取部分，作者提出了一种局部HOG，对于各种变化的鲁棒性较强，总体效果较好。

实验目的

人群计数这个领域做LOI的不是特别多，作者主要也是面向存在的一些问题，例如透视、遮挡、同时穿过造成的数据不连续以及有的时候过去的不是实际的路人。针对这些问题作者使用了时间切片+整数规划，与效果更好的local hog。

衡量指标

累积计数结果用均方误差（MSE）和预测计数与实际人数之间的绝对误差（绝对误差）进行评估，在测试集中的所有帧上取平均值。

实验设计

作者做了多组实验，对几乎涉及到的每一种技术都做了比对：

整数规划、least square、non-negative least-squares对比
flow-mosaickin与local hog在各个数据集的对比
两个数据集各种时间间隔对比
是否进行normalization的对比
使用不同特征的对比
数据集左右来往的人的对比

改进方案

（持续更新）
例如特征提取可以尝试用特征提取能力更强的CNN做，优化目标可以加入一些惩罚避免速度变化过大或通过人数较多时造成的误差

Swocky

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【人群计数】Crossing the Line: Crowd Counting by Integer Programming with Local Features

作者提出了一种对于视频中穿过关注线的行人数量实时整数规划方法。视频首先被转换为时序序列，然后人数会通过一系列有重叠的窗口进行估计，使用了一种从局部特征到数量的回归函数进行映射。考虑到滑动窗口中的计数是相应时间间隔内的瞬时计数之和，提出了一种整数规划方法来恢复每帧中穿过区间的行人数量。在一个特定的时间间隔内进行积分，可以得到行人过路的累计计数。
复制链接

扫一扫

专栏目录