Scale Match for Tiny Person Detection 阅读记录
该论文提出了两大创新:
- 提出了一个新的数据集(TinyPerson)。
- 提出了一个尺度匹配的方法,使两个数据集之间的特征分布尽可能地一致。
TinyPerson是海上快速救援的背景下,提出的微小目标检测数据集。
神经网络预训练数据集和检测器学习数据集之间的尺度不匹配会影响特征表示和检测器的性能。
因此,作者提出了一种简单而有效的尺度匹配方法来对齐两个数据集之间的对象尺度,以获得良好的微小对象的特征表示。
CityPersons 数据集中的大部分目标距离相机都不够远。
作者还对比了CityPersons、coco、TinyPerson和WIDER Face四个数据集。
前四幅图是各个数据集的展示,后两个图是对各个数据集中各种尺度的目标框数量的统计,从统计图中可以看出TinyPerson在不同的绝对尺寸的目标数量相对均衡,相对于其他的数据集,Tiny Person的小目标更多。
作者对目标尺寸的定义:
G i j = ( x i j , y i j , w i j , h i j ) G_{ij} = (x_{ij}, y_{ij}, w_{ij}, h_{ij}) Gij=(xij,yij,wij,hij)
A S ( G i j ) = w i j ∗ h i j AS(G_{ij}) = \sqrt{w_{ij} * h_{ij}} AS(Gij)=wij∗hij
R S ( G i j ) = w i j ∗ h i j W i ∗ H i RS(G_{ij}) = \sqrt{\dfrac {w_{ij} * h_{ij}}{W_i * H_i}} RS(Gij)=Wi∗Hiwij∗hij
其中 G i j G_{ij} Gij代表低 i i i个图像的第 j j j个目标框, ( x i j , y i j ) (x_{ij}, y_{ij}) (xij,yij)表示目标框的左上角点, ( w i j , h i j ) (w_{ij}, h_{ij}) (wij,hij)表示目标框的宽和高。 ( W i , H i ) (W_i ,H_i) (Wi,Hi)表示图像的宽和高。 A S ( G i j ) AS(G_{ij}) AS(Gij)是目标框的绝对尺寸, R S ( G i j ) RS(G_{ij}) RS(Gij)是目标框的相对尺寸。
作者对比各个数据集中目标框的尺寸
TinyPerson的目标更小,coco的尺度跨越更大。
关于数据的标注规则,TinyPerson将人分为了两类,sea person和earth person。
船上的、躺在水里的、身体一半以上在水里的,是sea person;其他的是earth person。
忽略的样本:
- 密集人群。可以识别为人,但是当用标准矩形标记时,人群很难一一分开;
- 难分区域。很难清楚地区分是否有一个或多个人;
- 水中的倒影。
对于小目标的检测,作者并没有设计相关网络结构,而是从数据的角度考虑。
作者认为,更多的训练数据会训练出更好的模型,所有大家都喜欢在额外的数据集中做预训练,然后再在自己的数据集上进行微调,这样的操作是有效果的,但是如何利用大量额外的公共数据集去完成小目标检测网络的训练呢?为了解决这个问题,作者提出尺度匹配。
如果可以找到一个数据集的转换方法,将额外数据集转换以后,该数据集的尺寸概率密度函数与我们自己的数据集的尺寸概率密度函数类似,就可以是额外的数据集达到更好的预训练效果。
后面的问题就是如何找到这个数据集转换方法。
参考:
1.Tiny Person数据集&基于它的TOD冠亚军方案
2.原文
3.代码