多尺度特征融合的目标检测算法-论文解读

最新推荐文章于 2024-06-24 14:59:05 发布

寂静之地

最新推荐文章于 2024-06-24 14:59:05 发布

阅读量4.2k

点赞数 2

文章标签：算法深度学习 pytorch 目标检测

本文链接：https://blog.csdn.net/oijdkd/article/details/120322394

版权

1.论文声称的创新点

论文中的创新点主要体现在网络结构的创新上，作者提出了一种基于SSD多尺度特征融合（Multi-scale Feature Fusion Single Shot Detector，MFF-SSD）的目标检测模型。将高层特征与低层特征进行融合，并提出了融合模块，实现不同尺度的特征提取。
高层特征图对目标的抽象程度更深，包含充分的全局信息，具有较大的感受野和较强的上下文语义信息表征能力，因此对目标位置的判定更加准确；而低层特征图的空间分辨率要高于高层特征图，能够更加准确地识别出更多的边缘、轮廓和纹理等细节信息，对目标类别做出准确判定，MFF-SSD模型从不同的卷积层来提取特征用于目标检测。

2.实现方法

论文先描述了SSD模型，然后在SSD模型的基础上提出了MFF-SSD目标检测模型，最后又对融合模块进行了讲解。

2.1 SSD模型

SSD模型是经典的一阶段检测模型，其主要思想是均匀的在各个层的特征图上进行采样，抽样时可以采用不同的尺度和长宽比，然后直接用CNN提取特征进行分类和回归，所以其优势时速度快，实时性好。但是由于其正负样本（算法会事先约定一个iou的阈值，检测框与lable的iou大于该阈值为正样本，小于该阈值为负样本）不均衡，导致模型准确率稍低。SSD基础的网络结构是VGG16，同时加入了YOLO的回归思想和Faster-RCNN的先验框机制。
SSD原论文

图1 SSD网络结构

SSD300网络结构的输入图像大小为 $300\times 300$ ，前面一部分使用了VGG16的卷积层，将VGG16的两个全连接层变为两个卷积层（conv6和conv7),后面又进行了几次卷积生成了conv8_2,conv9_2，conv10_2以及conv11_2。由图可知，SSD将生成的conv4_3，conv7,conv8_2，conv9_2，conv10_2以及conv11_2这六个特征图送到检测分类层做回归。

2.2 MFF-SSD模型

由于SSD网络生成的预测框质量较低，导致小尺度目标或被遮挡的目标定位失败，影响检测效果，所以针对SSD算法在检测小目标存在检测视野范围小、检测图像长宽比单一、检测精度较低、实时性较差等问题，提出了一种基于SSD多尺度特征融合的模型（MFF-SSD）。

图2 MFF-SSD网络结构

MFF-SSD模型在原SSD网络结构的基础上对SSD的后4层进行反卷积，得到4个反卷积模块（conv12_2，conv13_2，conv14_2以及conv15_2），利用高层网络和低层网络的优势，将高层网络和低层网络进行多尺度融合，然后将特征融合模块与SSD网络的7~11层同时输入到检测模块进行检测。共提取大小分别是（150，150）、（75，75）、（38，38）、（19，19）、（10，10）、（5，5）、（3，3）、（1，1）的8个特征图. 该模型实现了来自不同卷积层、不同尺度、不同特征的多元信息的分类检测与位置回归。

2.3 融合模块

MFF-SSD模型一有4个融合模块，它们采用的都是跳跃连接的方式，以融合模块1为例进行说明。

图3 融合模块

首先将高层特征图conv15_2进行上采样，使用卷积核为 $2\times 2$ ，通道数为256进行反卷积，接着使用 $3\times 3$ 的卷积核进行卷积，再经过激活函数ReLu输出到BN层，采用L2正则化对数据进行批量归一化，再输入到卷积和为 $3\times 3$ ，通道数为256再进行一次反卷积，接着再经过卷积核大小为 $3\times 3$ 的卷积，最后经过BN层输出。低层特征图conv2_2首先经过一次卷积核大小为 $3\times 3$ 的卷积，再输入到ReLu,最后经BN层归一化输出。将高层特征图和低层特征图的输出进行求和操作（Eltw Sum),然后输入到ReLu层，最后再经过一次卷积和ReLu后就实现了融合。

3. 提升效果（实验结果分析）

论文数据集采用的是Wider Face人脸检测数据集，输入图像尺寸大小为 $300\times 300$ ，参数设置为：迭代次数5000次，学习率为0.0001，动量因子为0.9，权值衰减参数为0.0005，IOU为0.6，具体实验结果见下图。
在这里插入图片描述

图4 各种检测算法结果对比

由上述实验结果可自己MFF-SSD模型的mAP（目标检测的平均精度）达到了78.9%，FPS（每秒传输帧数，目标检测过程中衡量处理速度的指标）达到了57FPS,与其他算法对比，MFF-SSD算法检测分类更准确，定位更精准，总体性能较好。
SSD网络结构详解

寂静之地

关注

2
点赞
踩
38

收藏

觉得还不错? 一键收藏
0
评论
多尺度特征融合的目标检测算法-论文解读

1.论文声称的创新点论文中的创新点主要体现在网络结构的创新上，作者提出了一种基于SSD多尺度特征融合（Multi-scale Feature Fusion Single Shot Detector，MFF-SSD）的目标检测模型。将高层特征与低层特征进行融合，并提出了融合模块，实现不同尺度的特征提取。高层特征图对目标的抽象程度更深，包含充分的全局信息，具有较大的感受野和较强的上下文语义信息表征能力，因此对目标位置的判定更加准确；而低层特征图的空间分辨率要高于高层特征图，能够更加准确地识别出更多的
复制链接

扫一扫