每日文献（十三）——Part two-CSDN博客

本文链接：https://blog.csdn.net/qq_52889317/article/details/147276542

今天从第三章节：“实现细节”开始介绍。

三、实现细节

我们在多尺度图像上训练和测试区域建议和目标检测网络。这是在KITTI目标检测基准[13]上基于CNN的目标检测的趋势。例如，在[16]中，输入图像被上采样4倍，在[17]中被上采样3倍。这可能是由于以下原因。(i) CNN的卷积层跨距大于1。(ii)最大池化层减少了空间维度。(iii)由于CNN网络是在固定的224 × 224尺度下进行预训练的，因此无法对不同尺度下的对象生成丰富的特征。我们在不同的尺度组合下训练和测试，这样最短的边有s个像素。

在训练过程中，每个真实值被分配到最接近的尺度。在测试过程中，通过非最大抑制(non - maximum suppression, NMS)单元(IoU阈值为0.7)筛选出最优的K1建议后，只选择最优的K2建议。此外，在每个尺度上独立地进行检测，稍后将它们连接起来并通过NMS单元(IoU阈值:0.3)来删除重复的检测框。

以下参数用于使用随机动量梯度下降进行4步交替训练。(i & iii)批处理大小:256。总迭代次数:80,000次。基本学习率:0.001。步长:60,000。学习率比例因子:0.1。动量:0.9。重量衰减:0.0001。(ii & iv)批量大小:128。总迭代次数:40,000次。其余参数保持不变。

四、实验

我们在KITTI目标检测基准[13]上评估了我们的方法，用于汽车检测任务。数据集按照[18]的建议分为训练和验证。训练集和验证集分别有3682张和3799张图像。我们通过包括图像的水平翻转版本来增强训练集。KITTI目标检测基准在表1中根据约束条件区分的3种不同难度设置下评估检测器的性能。我们在中等难度设置下进行训练和测试。硬真实值箱在训练和测试中都被认为是不关心箱。我们评估精确度召回曲线(AUC)下的面积作为检测器性能的衡量标准。如果某个真实值的IoU重叠大于0，则认为该检测边界框为真阳性，实验中固定为0.7。

我们在KITTI训练分割上使用ZF网络训练RefineNet模型(M1)。训练和测试在尺度s ={375, 750}上进行，分别是图像大小的{1x, 2x}。我们在3种不同的尺度(8,16和32)和3种不同的长宽比(1:1,1:2和2:1)下使用默认的9个锚。对于迭代1，我们将K1 = 6000和K2 = 300盒子(在第三节中定义)使用到Fast R-CNN网络中。在表2中，我们将AUC报告为细化迭代次数的函数，重叠为0.7。在这种严格的重叠要求下，我们演示了细化步骤仅通过1或2次迭代就能提高定位精度的能力。当N = 3时，M1最大AUC为81.58%。在K2 = 200时，运行时间从0.29秒减少到0.22秒，AUC减少不到0.4%。作为最后的实验，我们研究了锚箱数量的影响。具体来说，我们只训练了一个锚边界框(边长为67像素，居中为0,0的正方形)的RefineNet模型(M2)。同样，训练和测试按s ={375,750}的比例尺进行。根据我们之前的实验，我们设K1 = 1000。在K2 = 200时，运行时间减少到0.20秒，AUC减少不到0.9%。虽然运行时间的减少并不显著，但AUC从74.54%提高到80.69%，提高幅度超过6%。通过将锚盒的数量从M1中的9个减少到M2中的1个，我们减少了模型参数的数量。直观地说，这导致第一次迭代时AUC降低了4% (78.79% vs 74.54%)，但是，RefineNet仅在另外两次迭代中就提高了检测质量。

重叠0.7处的Auc vs.细化迭代次数(n)。使用细化模型m1在kitti验证集上生成的度量。

对KITTI目标检测基准的评估:我们用取自M1的参数训练一个RefineNet模型，并在整个训练集上训练它。该模型在KITTI基准上达到79.17%。在表III中，我们比较了不同难度设置下的AUC。SubCNN[16]和3DOP[17]在不同难度设置下共享最大AUC。然而，这带来了计算成本的显著增加。SubCNN在上采样输入图像上使用VGG16[3]高达4倍，而3DOP在上采样输入图像上使用VGG16[4]为3.5倍。SDP通过在VGG16的不同转换层使用级联分类器来解决小目标的检测问题。在使用ZF Net[14]来研究对检测器精度和运行时间的影响的同时，将这个想法与RefineNet结合起来会很有趣。

在中等难度设置下，最先进的检测器在kitti目标检测基准上实现的Auc。* -方法采用vgg16网络。

结果可视化:图3展示了以不同颜色可视化的RefineNet迭代示例图像。RefineNet被证明可以改善各种具有挑战性的情况下的边界框定位，包括小物体、部分截断和部分遮挡。我们在分析的低阈值处绘制检测结果，导致一些假阳性，但请注意，这些假阳性的得分通常低于可视化的真阳性。图展示了RefineNet的一些具有挑战性的情况，主要是由于严重遮挡。例如，图4描述了RefineNet在基线上有所改进，但仍然不能完全定位被遮挡车辆的情况(中图)。另一个例子是许多停在附近的车辆，在迭代改进步骤之后导致较少的局部化边界框。

在KITTI验证集上使用RefineNet模型M2生成带有检测框的样本图像。图中，橙色、黄色和绿色分别代表迭代1、2和3时的边界框。置信度分数表示为与检测框相邻的数字。请注意，在最后一张图像中显示的假阳性具有90%和85%的低得分。RefineNet被证明可以改善非遮挡和部分遮挡、截断和小目标情况下的定位。

在KITTI验证集上使用RefineNet模型M2生成带有检测框的样本图像。这些图像显示了由于严重遮挡而对RefineNet具有挑战性的情况。

五、总结贡献

在本文中，我们引入了一种名为RefineNet的新策略来提高车辆检测的定位精度，并在AUC下获得了高达6%的增益。我们的方法依赖于使用已经计算的特征，使检测器非常快。具体来说，RefineNet在每张图像上运行大约0.22秒。在KITTI目标检测基准测试中，在中等难度设置下达到79.19%。它是最快的检测器，达到70%以上的AUC。在简单的难度设置下，它达到了90%的AUC，接近最先进的结果。结果表明，采用ZF结构，该方法大大提高了检测性能。使用更深层的网络(如VGG)来提高性能，将在未来进行研究。