论文理解:SSD

SSD(Single Shot MultiBox Detector)是为了解决目标检测系统的速度和计算需求问题而提出的。它基于前馈卷积网络,通过在不同尺度的特征图上评估默认框来实现多尺度检测。训练过程中,SSD使用Smooth L1和Softmax损失函数,通过匹配默认框与ground truth box进行学习。在检测阶段,采用非最大化抑制得到最终检测结果。SSD的优势在于其效率和准确性,适合即时应用。
摘要由CSDN通过智能技术生成

作者认为,当前的目标检测系统虽然准确,但是对于嵌入式系统甚至高端硬件来说仍需要大量集中的计算,对于即时应用仍然太慢了。于是在本文中提出了SSD(Single Shot MultiBox Detector)。

SSD架构如下:

如图(a)SSD在训练期间仅需要每个对象的输入图像和对应的ground truth box(真实标签框)。卷积处理时,我们在具有不同尺度(例如(b)和(c)中的8×8和4×4)的若干特征图中的每个位置处评估不同横宽比的小(例如4个)默认框集合。对于每个默认框,我们预测对所有对象类别((c 1,c2,...,cp))的形状偏移和置信度。在训练时,我们首先将这些默认框匹配到ground truth box。例如,两个默认框匹配到猫和狗,这些框为正,其余视为负。模型损失是位置损失(例如Smooth L1)和置信损失(例如Softmax)之间的加权和。

对于ground truth box解释https://www.zhihu.com/question/22464082

SSD基于前馈卷积网络,其产生固定大小的边界框集合和框中对象类别的分数,接着是非最大化抑制步骤以产生最终检测。网络浅层基于高质量图像分类(在任何分类层之前截断网络)的标准网络,作者称其为“基础网络”。接着在后面添加辅助结构,产生具有以下关键特征的检测:

多尺度特征图检测:将卷积特征层添加到截断的基础网络的末尾。这些层尺寸逐渐减小,得到多个尺度检测的预测值。检测的卷积模型对于每个特征层是不同的(图中选取了VGG-16作为例子,并与YOLO进行了对比):

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值