1.小目标检测算法的一般流程
传统小目标检测算法流程 |
现有的小目标检测算法流程 |
1.输入待检测图片对象,首先对待检测图片进行候选框提取。 |
1.输入图像,开始训练,首先进行数据预处理(可采用图片翻转、图片缩放,CutOut、CutMix、MixUp、Moasaic等处理手段) |
2.采用一些经典的模式识别中的算法(基于颜色、基于纹理、基于形状等语义特征的方法)进行特征提取 |
2.检测网络。包含基础骨干(卷积网络、转换器网络)、特征融合(金字塔结构、编解码结构)、初始化(锚点、角点、查询)、预测( 分类、回归、中心度)等四个过程。 |
3.对特征提取中得到的特征进行分类判定。 (1) 对于单类别的目标检测只需要区分当前的窗口所覆盖的对象是背景还是目标。 (2)对于多类别的目标检测还需要进一步确定当前窗口覆盖的对象的类别。 |
3.进行标签匹配与损失计算。其中标签匹配包含交并比匹配、距离匹配、似然估计匹配、二分匹配;损失计算包含交叉熵损失、Focal损失等。 上述是训练过程,检测过程在训练过程的下一页。 |
4.采取NMS(非极大值抑郁,局部最大搜索)对候选框进行合并,处理掉候选框可能重叠的状况。(如果是多类别的目标检测则需要进行这一步。) |
传统小目标检测的一般流程图:
现有小目标检测算法的训练流程图:
现有小目标算法的测试流程图
2.常用目标检测数据集
数据集名称 |
数据集描述 |
参与过的实验 |
PASCALOVOC |
VOC数据集时目标检测常用数据集,包含了约10000张带有边界框的图片用于训练和验证,包含了20个类别,由于类别仅20个,因此被视为目标检测的一个基准数据集 |
Decetion Person Layout Classifiction等 |
MSCOCO |
大型的、丰富的物体检测,分割和字幕数据集,对于目标检测任务,每年大赛的训练和验证集柏寒120000张图片,超过40000张测试图片,覆盖91类目标。 |
YoloV3 YoloV5 实例分割算法性能验证等 |
ImageNet数据集 |
目前世界上图像识别最大的数据库,大约1500万张图片,2.2万类,每一周都经过严格的人工筛选和标记。ImageNet类似于图片所有引擎。 |
计算机视觉系统识别项目、YOLOV3等、SSD等 |
AL-TOD航空图像数据集 |
AL-TOD在28036张航拍图像中包含8个类别的700621个对象实例。包含8个类别的700621个对象实例,AL-TOD中目标的平均大小为12.8像素,远小于其他数据集。 |
Fster-RCNN `YOLOV3 M-CenterNet等 |
TinyPerson数据集 |
在TinyPerson有1610个标记图像和759个未标记图像,本数据集是第一个远距离和大背景下进行人员检测的基准,为极小目标检测开辟了一个新的前景方向。 |
RetinaNet、FCOS以及二阶段目标检测等算法。 |
Deepscores数据集 |
DeepScores数据集的目标是推进小物体识别的最新技术,并将物体识别问题置于场景理解的背景下。 |
道路车辆异常检测,检测视频流中的异常。 |
ALTEX数据集 |
该数据库由七个不同织物结构的245张4096*256像素图像组成。主要用于工业生产和质量检测,偏向于工业领域使用。 |
工业纺织生产检测 RCNN等 |
Labelme图像数据集 |
Labelme Dataset是用于目标识别的图像数据集,涵盖1000多个完全注释和2000个部分注释的图像,测试集拥有来自世界不同地方拍摄的图像,可以保证图片在续联和测试之间会有较大的差异 |
深度学习图像分割应用、制作图像语义分析数据集等 |
EuroCity Persons数据集 |
该数据集主要为城市交通场景,包含大量种类繁多,准确且详细的目标,该数据集比以前用于基准测试的数据集几乎大了一个数量级,其覆盖种类多,细节香精,将城市交通中的人员注释提升到了一个新的水平。 |
YOLOV3,交通路口车辆车牌识别、YOLOV4等 |
Penn-Fudan行人检测与分割数据集 |
该数据集由Wang等提出的一个图像数据库,由用于行人检测的图像组成。该图像数据库中包含170张取自校园周围和城市街道场景的图片,其中图片来源于几个大学,且每张图片至少有一个行人。 |
行人检测、图像分割等。 |
DOTA数据集 |
该数据集用于航空图像中目标检测的大型数据集,包含了各种尺度、方向、形状的对象,完全注释的DOTA图像包含188282个实例。 |
RCNN、SSD、CVPR21小目标检测。 |
3.小目标检测算法的历史流程
算法名称 |