【CV】小目标检测问题中“小目标”如何定义？其主要技术难点在哪？

最新推荐文章于 2025-02-20 16:42:13 发布

风度78

最新推荐文章于 2025-02-20 16:42:13 发布

阅读量6.3k

点赞数 5

文章标签：人工智能 python 计算机视觉机器学习深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwODI2NDkxNQ==&mid=2247503543&idx=4&sn=5eabf22d1bd0630cdb0746ae3e636df6&chksm=9707450ba070cc1da6204410ca1a38809db22dd50e3933d9f7fbfbbaa6ea2507bc59832a514b&scene=126&&sessionid=0

版权

前言：

目标检测是计算机视觉领域中的一个重要研究方向，同时也是解决分割、场景理解、目标跟踪、图像描述和事件检测等更高层次视觉任务的基础。在现实场景中，由于小目标是的大量存在，因此小目标检测具有广泛的应用前景，在自动驾驶、智慧医疗、缺陷检测和航拍图像分析等诸多领域发挥着重要作用。那么到底啥样的才算是小目标呢？以及其难点和好用的方法呢？

1.小目标定义

在不同场景下定义小目标的标准不尽相同，但现有的定义方式按学术上可主要分为两类：

(1)基于相对尺度

即从目标与图像的相对比例这一角度考虑来对小目标进行定义。Chen[1]等对小目标做了如下定义：同一类别中所有目标实例的相对面积，即边界框面积与图像面积之比的中位数在0.08%~0.58%之间。除此以外，较为常见的还有以下几种：①目标边界框的宽高与图像的宽高比例小于一定值，较为通用的比例值为0.1；②目标边界框面积与图像面积的比值开方小于一定值，较为通用的值为0.03；③根据目标实际覆盖像素与图像总像素之间比例来对小目标进行定义。

(2)基于绝对尺度：

即从目标绝对像素大小这一角度考虑来对小目标进行定义。目前最为通用的定义来自于目标检测领域的通用数据集——MS COCO数据集，将小目标定义为分辨率小于32像素×32像素的目标。除了MS COCO之外，还有其他基于绝对尺度的定义，如在航空图像数据集DOTA与人脸检测数据集WIDER FACE中都将像素值范围在[10，50]之间的目标定义为小目标。在行人识别数据集CityPersons中，将小目标定义为了高度小于75像素的目标。基于航空图像的小行人数据集TinyPerson则将小目标定义为像素值范围在［20，32］之间的目标。

2.技术难点

(1)可利用特征较少

小目标相比于大/中目标分辨率低，信息较少，难以提取到具有鉴别力的特征。

(2)定位精度要求高

小目标在图像中位置过小且极易受到环境干扰，网络预测时偏移一个像素则对小目标的影响是巨大的。

(3)现有数据集中小目标占比少

现有数据集较少关注小目标这一特别类型。同时，小目标不易标注，人力成本巨大，而且对误差更为敏感。

(4)样本不均衡

训练时通过设定阈值来判断锚框是否属于正样本，这样会导致不同尺寸目标的样本不均衡问题。因此，当人工设定的锚框与真实边框相差较大时，会导致模型忽略小目标的检测。

(5)小目标聚集

小目标更容易出现聚集的现象，这时网络模型的预测边框可能会因非极大值抑制过滤掉大量正确边框，导致漏掉小目标，或是边框距离过近，导致模型难以收敛。

(6)网络结构

目前现有算法针对小目标特性的优化设计不多，加之小目标自身特性所带来的难度，导致现有算法在小目标检测上普遍表现不佳。

3.比较好的传统或深度学习方法

(1)多尺度学习

多尺度是同时结合深层语义信息和浅层表征信息对小目标进行预测，是一种提升小目标检测性能的有效策略。

(2)上下文学习

上下文关系通常指场景中目标与场景或者目标与目标之间的约束和依赖关系，上下文学习即使学习这种关系，以此充分利用了图像中与目标相关的信息，能够有效提升小目标检测的性能[2]。基于上下文学习可分为两类：①隐式上下文特征，即指目标区域周围的背景特征或全局的场景特征。②显示上下文推理，指利用场景中明确的上下文信息来辅助推断目标的位置或类别。

(3)无锚机制

一种摆脱锚框机制的思路是将目标检测任务转换为关键点的估计，即基于关键点的目标检测方法，该方法主要包含两个大类：①基于角点的检测，通过对从卷积特征图中学习到的角点分组来预测目标边界框。②基于中心的检测[3]。预测出左上角和右下角的角点以及中心关键点，然后通过角点匹配确定边界框，最后利用预测的中心点消除角点不匹配引起的不正确的边界框。

(4)优化损失函数

在网络的训练过程中，小目标更容易受到随机误差的影响。[4]提出一种依据目标尺寸设定不同权重的损失函数。[5]将级联思想与焦距损失相结合，提出了Cascade RetinaNet。[6]提出了一种考虑前景背景之间平衡的损失函数，均有效提升了小目标的检测性能。

参考文献：

[1]CHEN C, LIU M Y, TUZEL O, et al. RCNN for small object detection[C]//Proceeding of Asian Conference on Computer Vision. Cham: Springer, 2016: 214230

[2]OLIVA A,TORRALBA A.The role of context in object recognition[J].Trends in Cognitive Sciences,2007,11(12): 520-527.

[3]DUAN K, BAI S, XIE L, et al. Centernet: Keypoint triplets for object detection[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 6569-6578.

[4]REDMON J, FARHADI A. YOLO9000: Better, faster, stronger[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 72637271

[5]DENG C,WANG M,LIU L,et al.Extended feature pyramid network for small object detection[EB/OL].(2020-05-16)[2020-04-09].

[6]LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2017: 2980-2988.

[7]高新波,莫梦竟成,汪海涛等.小目标检测研究进展[J].数据采集与处理,2021,36(03):391-417.

END

往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》（黄海广主讲）机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419，加入微信群请扫码