R-CNN随笔No.2

        在上一篇博文中我们介绍了R-CNN的主要内容,说R-CNN好,那它究竟好在哪呢?下面就让我们来讨论一下R-CNN文章中的实验结果部分,看看作者是怎样证明R-CNN的优越性的。
        作者展示的实验结果主要有两个,一个是在PASCAL VOC 2010-2012上的实验结果,另一个则是在ILSVRC2013上的结果,并在VOC 2007上对网络做出分析。
 
        上述表格显示了在VOC 2010上的完整结果,作者将R-CNN的两种变种方法(是否使用bounding-box regression)与四种强大的其他方法进行了比较。其中最主要的是与UVA和Regionlets的比较,因为它与R-CNN使用了相同的生成region proposal算法。从表格中我们可以看到R-CNN相比那些使用多种特征和非线性核的SVM,检测的mAP(平均准确率)从35.1%达到了53.7%,并且在测试阶段的速度也更快。另外,作者也表明R-CNN在VOC2011/12的数据上也有很好的效果。
 
        作者还在拥有200个类的ILSVRC2013数据上运行了R-CNN,运行参数使用了在PASCAL VOC上得到的参数。(本人认为作者这样做是为了验证模型的泛化能力)。上图展示了R-CNN与ILSVRC2013中的几种参赛方法及OverFeat方法的对比实验的结果。R-CNN的mAP达到了31.4%,远超第二的OverFeat。为了给出AP在类上的分布,作者给出了box plots(上图右部,我没太看懂,请读者原谅)。在后面的部分还将再次讨论在ILSVRC2013上实验的详细内容。
看到这,读者有没有和博主一样的问题,R-CNN到底学习了什么呢?不用急,文章中作者通过可视化学习到的特征,对这个问题做出了解答。有过深度学习经历的宝宝们肯定知道CNN网络的第一层学到的内容是很容易解释的----各种方向的边或各种大差异的颜色。但更深层网络学习到了什么就不这么容易解释了,文章中提及到了一种visually attractive deconvolutional 方法(M. Zeiler, G. Taylor, and R. Fergus. Adaptive deconvolutional networks for mid and high level feature learning. In CVPR, 2011. 4),有兴趣的读者可以看一下。其实R-CNN的作者也给出了一种简单的非参式的方法。
        作者的可视化方法如下:挑选网络中的一个具体单元,像一个目标检测器一样使用它。这么说有些抽象,具体来说就是先计算网络某单元(神经元)对全部region proposals的激活程度,并由此自高向低做出排序,执行非最大抑制(在R-CNN随笔No.1中有解释,这里不再累述),最后展示那些高分regions。作者在试验中可视化了pool5的单元;其feature map维数为6*6*256=9216,其对原图(227*227)的感受野为195*195(为什么是这个值有待研究)。
        下图显示在VOC 2007上pool5上6个单元的激活值排名位于前16为的regions。可以看出不同的单元对不同的形状,纹理,颜色,材质的感应各不相同。pool5层之后的全链接层fc6可以充分的将pool5学习的特征充分组合。
 
        文章中还提到了Ablation studies(不知道怎么翻译合适)。主要讨论了fine-tuning对性能的影响。作者分析了在VOC 2007数据集上CNN最后三层的性能。pool5的性能已经在上述内容中做出分析。下面分析最后两层的性能。
 
        在没有微调的情况下,fc7的性能是低于fc6,这意味着29%的参数删除后(fc7与fc6的链接参数)不会影响网络的准确率。同时我们还可以看到如果只有pool5层,正确率更好了,要知道网络的前五层只占了整个网络的6%。所以在实际应用中我们只用到CNN的前五层就好。那在有微调的情况下呢?经过微调网络后三层的性能都得到了提高,特别是fc7与fc6的提升是巨大的。另外我们也可以看到R-CNN的性能远好于其他三种基于DPM的方法。
        在接下来作者对网络的结构对系统的性能的影响做出了讨论。文章中比较了两种结构,一种是Krizhecsky等人提出的AlexNet,另一种是Simonyan和Zisserman提出的OxfordNet.在使用网络时,除在微调网络时使用了不同的batchsize,其余相同。我们从下表中可以看到使用OxfordNet结构的网络性能更加,但其速度太慢(整整慢了7倍)。
 
        最后,在试验分析中我们可以看到使用bounding-box regression可以有效避免错误的定位(上面图表中后缀为BB的网络)。
        文章实验的部分好长呀,剩余的在ILSVRC 2013上的实验详细分析下回再说吧!哈哈哈。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值