R-CNN随笔No.2-CSDN博客

本文链接：https://blog.csdn.net/oyjxer/article/details/51812334

在上一篇博文中我们介绍了R-CNN的主要内容，说R-CNN好，那它究竟好在哪呢?下面就让我们来讨论一下R-CNN文章中的实验结果部分，看看作者是怎样证明R-CNN的优越性的。
作者展示的实验结果主要有两个，一个是在PASCAL VOC 2010-2012上的实验结果，另一个则是在ILSVRC2013上的结果，并在VOC 2007上对网络做出分析。

上述表格显示了在VOC 2010上的完整结果，作者将R-CNN的两种变种方法（是否使用bounding-box regression）与四种强大的其他方法进行了比较。其中最主要的是与UVA和Regionlets的比较，因为它与R-CNN使用了相同的生成region proposal算法。从表格中我们可以看到R-CNN相比那些使用多种特征和非线性核的SVM，检测的mAP（平均准确率）从35.1%达到了53.7%，并且在测试阶段的速度也更快。另外，作者也表明R-CNN在VOC2011/12的数据上也有很好的效果。

  作者还在拥有200个类的ILSVRC2013数据上运行了R-CNN，运行参数使用了在PASCAL VOC上得到的参数。（本人认为作者这样做是为了验证模型的泛化能力）。上图展示了R-CNN与ILSVRC2013中的几种参赛方法及OverFeat方法的对比实验的结果。R-CNN的mAP达到了31.4%，远超第二的OverFeat。为了给出AP在类上的分布，作者给出了box plots（上图右部，我没太看懂，请读者原谅）。在后面的部分还将再次讨论在ILSVRC2013上实验的详细内容。
看到这，读者有没有和博主一样的问题，R-CNN到底学习了什么呢？不用急，文章中作者通过可视化学习到的特征，对这个问题做出了解答。有过深度学习经历的宝宝们肯定知道CNN网络的第一层学到的内容是很容易解释的----各种方向的边或各种大差异的颜色。但更深层网络学习到了什么就不这么容易解释了，文章中提及到了一种visually attractive deconvolutional 方法（M. Zeiler, G. Taylor, and R. Fergus. Adaptive deconvolutional networks for mid and high level feature learning. In CVPR, 2011. 4），有兴趣的读者可以看一下。其实R-CNN的作者也给出了一种简单的非参式的方法。
  作者的可视化方法如下：挑选网络中的一个具体单元，像一个目标检测器一样使用它。这么说有些抽象，具体来说就是先计算网络某单元（神经元）对全部region proposals的激活程度，并由此自高向低做出排序，执行非最大抑制（在R-CNN随笔No.1中有解释，这里不再累述），最后展示那些高分regions。作者在试验中可视化了pool5的单元；其feature map维数为6*6*256=9216，其对原图（227*227）的感受野为195*195（为什么是这个值有待研究）。
  下图显示在VOC 2007上pool5上6个单元的激活值排名位于前16为的regions。可以看出不同的单元对不同的形状，纹理，颜色，材质的感应各不相同。pool5层之后的全链接层fc6可以充分的将pool5学习的特征充分组合。

文章中还提到了Ablation studies（不知道怎么翻译合适）。主要讨论了fine-tuning对性能的影响。作者分析了在VOC 2007数据集上CNN最后三层的性能。pool5的性能已经在上述内容中做出分析。下面分析最后两层的性能。

在没有微调的情况下，fc7的性能是低于fc6,这意味着29%的参数删除后（fc7与fc6的链接参数）不会影响网络的准确率。同时我们还可以看到如果只有pool5层，正确率更好了，要知道网络的前五层只占了整个网络的6%。所以在实际应用中我们只用到CNN的前五层就好。那在有微调的情况下呢？经过微调网络后三层的性能都得到了提高，特别是fc7与fc6的提升是巨大的。另外我们也可以看到R-CNN的性能远好于其他三种基于DPM的方法。
在接下来作者对网络的结构对系统的性能的影响做出了讨论。文章中比较了两种结构，一种是Krizhecsky等人提出的AlexNet，另一种是Simonyan和Zisserman提出的OxfordNet.在使用网络时，除在微调网络时使用了不同的batchsize，其余相同。我们从下表中可以看到使用OxfordNet结构的网络性能更加，但其速度太慢（整整慢了7倍）。