摘要
城市交通优化使用交通摄像头作为传感器,推动了先进的多目标多摄像头(MTMC)跟踪的需求。背景
这项工作引入了CityFlow,这是一个城市规模的交通摄像头数据集,包含超过3小时的同步高清视频,来自10个路口的40个摄像头,同时两个摄像头之间的最长距离为2.5公里。据我们所知,CityFlow是城市环境中最大的空间覆盖和摄像头/视频数量的数据集。该数据集包含超过200K的带注释的边界框,涵盖了广泛的场景、视角、车辆模型和城市交通流状况。摄像机的几何形状和校准信息被提供来辅助时空分析。此外,该基准的一个子集可用于基于图像的车辆再识别(ReID)任务。
在这个数据集上,我们对基线/最先进的方法进行了广泛的实验评估,包括MTMC跟踪、多目标单摄像头(MTSC)跟踪、目标检测和基于图像的ReID,分析了不同网络架构、损失函数、任务效率的时空模型及其组合。
在2019年人工智能城市挑战赛(AI City Challenge)上,我们推出了一个evaluation server,让研究人员可以比较他们最新技术的性能。我们希望这个数据集能够催化该领域的研究,推动最先进的技术向前发展,并导致在现实世界中部署交通优化。
数据集
1.有5个场景:说明该数据集覆盖范围广,city-scale
2.各数据集比较,这个表还挺详细的
3.关于这个数据集的详细介绍:分别在5个场景下的详细信息
4.这个图似曾相识,veri-wild的数据集也有一个color和type的分析
5.可视化的图:展示车子在不同摄像头下的样子
实验
其实觉得实验主要就是看图表,超级丰富的,还是有挺多借鉴的地方
1.non-metric learning的方法,发现很poor
2.对应上表,different metric learning和different architeure
结论是DenseNet121的网络结构+Xcent+Htri的Loss效果最好
3.对应上表的图,果然还是要有一表一图
4.在DenseNet121上的不同的Norm的可视化结果,选了两个example,还挺占篇幅的
5.在行人重识别数据集上用不同的方法做实验,发现DenseNet121+Xcent的方法competitive(但是我觉得很奇怪,为什么要和行人重数据集比,该数据集是做车辆的,而且方法densenet121+xcent也不是作者提出来的,而且上述最好的方法不是densenet121+xcent+htri吗,为什么不用那个比)就感觉奇奇怪怪的,是不是性能越低就越说明这个数据集强
6.不同采样方式的影响(其实也有点不太理解为什么要做不同采样的实验)本文不是做采样研究的
拓展知识 参考论文Vehicle Re-Identification:an Efficient Baseline Using Triplet Embeddeding 都是NVIDIA做的,感觉应该是同期的工作 文章是将person reid中的triplet loss运用到vehicle reid中,并证明有效果
下面是一些采样方法的介绍
Batch的采样方式,大家一般是采用PK的采样方式,即从所有训练集的label中选出P个ID,然后每个ID选出K张图片,所以一个batch就是PK张图片,然后按照不同的triplet,从这个Batch中选出若干triplet,每个triplet计算一个triplet loss,然后累积整个batch中所有的triplet loss之和,去进行back propagation。
BH:Batch Hard:Batch Hard就是组成一个triplet时,是从batch中寻找最hard的positive和negative
BA:Batch All:所有的正负样本都等概率用上,且无论用哪个正样本或者负样本,其weight都是一样的,这样的坏处在于训练收敛较慢,容易大部分训练时间花在了简单的triplet上,loss很小,对模型更新效果很小。但是这也有一种好处,至少我所有triplet都用得到,不容易收到个别异常的triplet的影响,防止模型跑偏
BS:Batch Sample:评估正负样本难易程度地weight计算采用多项式的形式,像BA那样所有组合都可能用上,但是又实现了更加重视hard 样本的效果
BW:Batch Weight:跟Batch All一样,都是所有组合都用上,且根据难易程度计算weight,但是weight计算方式不是多项式,而是指数函数
*
7.在不同车辆数据集上进行比较
8.在MTSC和目标检测上不同指标的结果
9.加入了时空分析的比较,对比跨摄像头多目标跟踪的最终结果
我的思考
这篇文章推出的数据集是很有挑战性的,覆盖范围广,覆盖时间长,然后有4个领域的应用,所以最后实验十分丰富,但是感觉有几个没有必要,图表还是有借鉴意义的