一 目的:
解决长尾问题——DMNet只是通过密度图的办法裁剪出更小的图基本解决目标的空间分布问题,以此有利于小目标的检测,但并没有考虑到类别不平衡的问题
二 主流的解决长尾效应的方法:
1.重采样:重采样的主要思想是通过对尾类进行过采样或对头类进行欠采样来平衡数据分布,从而提高尾类被训练的机会。但在重采样的情况下,有时尾类的重复样本会导致过拟合,而丢弃头类的样本会削弱网络的泛化能力。
2.重定权重:重定权重方法是给尾类训练样本或在损失函数中的难以识别的样本分配较大的权值。但是,重定权重无法处理大规模的数据集,会导致优化难度,导致性能低下。
三 方法:DSHNet有两个关键组成部分:类偏置采样器(CBS)和双边盒头(BBH)。
1. 具体来说,首先使用 Faster R-CNN得到特征图。
2.然后,对特征图,CBS(H)优先对头类进行采样,CBS(T)优先对尾类进行采样。
3.CBS后,将两组偏置样本分别输入BBH(H)和BBH(T)。
(在训练期间,BBH计算所有类的损失,计算方法和 Faster R-CNN一样。而在推理过程中,BBH只对相应的(头或尾)类的结果进行预测,并将预测结果进行融合得到最终结果。)
四 损失函数:
LBBH=LH(pH, y) +λLT(pT, y),
其中LT(pT, y)和LH(pH, y)分别为BBH(T)和BBH(H)的损失函数。pT和pH分别表示BBH(T)和BBH(H)的预测,包括box regression和class score。y表示包围框和类的标签。λ是一个平衡系数。
五 即插即用
五 不足:
在UAVDT dataset上使用Retina+DSHNet上AP只是17.8,DMNet cropping+DSHNet在VisionDrone Dataset上只为30.3,在NVIDIA 1080Ti GPU上最大推理速度为10.8到16.4fps,ap16.1到26.2,还有很大改进空间。
小目标和长尾问题相对缓解,遮挡,还有航拍图像的扭曲,鲁棒性的有待提高,实时性效果差。
六 感悟: 1.工程中可以增加有向行性的相关模块。
2.高级的特征感觉检测不出,只能做简单检测,很不智能。
3.机载的话实时性是个大问题,最高16.4相去甚远。
4.思想很好,可以当作一个模块用,文中也写的即插即用,可作为一个小策略使用。