写在最前面
这一系列文章是博主2020年本科论文调研时记的,现在是多模态的时代,很多技术都过时了,发出来希望对读这些论文的人有所帮助
Title
UnitBox : An Advanced Object Detection Network
Summary
这篇论文中的重要突破就是提出了IoU损失,使得模型的各项性能相较于DenseBox都有很大的提升。
Research Objective
提出新的定位损失IoU loss,解决使用 l 2 l_2 l2损失导致的定位不准确的问题,并据此提出新的神经网络UnitBox。
Problem Statement
现存的深度CNN方法中,例如DenseBox,将物体框表示为四个独立的坐标并分别使用 l 2 l_2 l2损失进行回归,但是这些坐标其实是相关的,这样就导致定位的不准确。
Method
1.Overview
这篇论文提出了一个新的高效的基于CNN的目标检测网络UnitBox,可以直接预测目标框和特征图上每个位置的分类分数。UnitBox得益于新的IoU损失函数,新的IoU损失直接强化预测框和真实框之间的最大交集,并且使所有边界值作为一个整体回归:
这样做不仅产生更为精确的物体框预测,还加快了训练的收敛过程。另外由于IoU损失,UnitBox还可以进行变尺度训练。
2. IOU LOSS LAYER
2.1 L2 Loss Layer
l
2
l_2
l2损失存在两个主要的缺点:(1)使用
l
2
l_2
l2损失时,物体框的四个坐标单独进行优化,这种假设违背了物体框四个坐标是高度相关的这个事实, 这导致出现很多一两条边和真实框很接近、但整体上则不可接受的预测框;(2)由
l
2
l_2
l2损失的形式我们可以知道,大物体框的损失一般较大,会在反向传播时起到更大的作用,这种不平衡的情况也会使得CNNs更注重大物体,DenseBox在解决这个问题时,选择了修正物体尺寸,但这影响了检测效率。
2.2 IoU Loss Layer:Forward
接下来,我们提出一个新的损失函数,叫做IoU损失,完美地解决了上面的问题,计算方式如下:
和
l
2
l_2
l2损失进行对比后,我们可以发现,IoU损失将bounding box看作一个整体,因此可以进行更加准确的物体框预测,另外,IoU大小不取决于bounding box的尺寸,这使得UnitBox可以基于多尺度目标进行训练,而只在单一尺度上进行测试。
2.3 IoU Loss Layer:Backward
3. UNITBOX NETWORK
基于IoU损失层,我们提出一个像素级的目标检测网络,叫做UnitBox,其结构来源于VGG-16,大概结构为:
移除了最后的全连接层,添加了两个全卷积分支来预测像素级的bounding box和分类置信度。
Evaluation
1.Effectiveness of IoU Loss
2.Performance of UnitBox
benchmark为FDDB
Conclusion
Strong Conclusion
1.这篇论文中提出了一个新的bounding box损失:IoU损失,相较于之前的
l
2
l_2
l2损失,新的损失使得模型的收敛速度更快,定位效果更好,检测速度也更快。
Notes
1.UnitBox提出的新的损失函数以及网络结构使其在检测速度上也有很大的提升。