论文阅读(4)--Part-Stacked CNN for Fine-Grained Visual Categorization

本文介绍了悉尼科技大学的研究,提出Part-Stacked CNN用于精细图像分类,减少了人工参与。该模型包含定位网络和分类网络,通过全卷积网络定位物体部件,再进行分类。网络设计独特,部件定位信息直接应用于分类过程,提高了效率和可解释性。实验结果显示,该方法在定位、分类、效率和可解释性方面表现出优越性能。
摘要由CSDN通过智能技术生成

这篇文章是来自悉尼科技大学Shaoli Huang等人的工作,与前两篇文章的出发点类似,本篇文章也是在Parts上寻找Fine-Grained的线索,但与前两篇文章相比,在框架中人工的参与更少。同其它Fine-Grained分类任务相似,这篇文章也采用两步走,即object parts localization (where pathway)classification (what pathway),值得一提的是在part定位过程中,利用了FCN(Fully Convolutional Network)。
论文提出的新方法是既可以得到不错的分类准确率,也能提供一个可以解释得了的模型,并且效率也更加高,非常适用于实际应用中。

下面是方法提出的网络结构的示意图:

这里写图片描述

接下来会介绍该方法的实现细节。

Part-Stacked CNN

论文将提出的新的CNN结构命名为Part-Stacked CNN,这个网络结构分为两个子网络,分别是定位网络(Localization Network)和分类网络(Classification Network)。采用的是Caffe框架和经典的AlexNet网络结构作为整个网络的基本结构。

作者提出与基于部件的R-CNN相比,一个最大不同点是,从定位网络到分类网络的一个信息转换运算,也就是使用定位网络中得到的部件位置进行分类的操作,是直接在数据的前向传播过程中直接使用在第五个卷积层输出的特征图上(A unique design in our architecture is that the message transferring operation from the localization network to the classification network, i.e. using detected part locations to perform part-based classification, is conducted directly on the conv5 output feature maps within the process of data forwarding.)。

1. Localization Network

定位网络的整体结构如下图所示:

这里写图片描述

定位网络主要目的是检测到物体部件的位置,论文是使用了最简单的部件标注–每个部件中心位置标注的二维关键点。这里假设M表示数据集中物体部件标签的数量。然后采用全卷积网络(fully convolutional network,FCN)来生成密集的特征图输出。这里使用FCN的理由给出了三点:

1)FCN得到的特征图输出可以直接作为部件定位的结果用于分类网络;

2)FCN可以同时获取多个物件部件的结果;

3)FCN在学习和预测阶段都非常高效。

1.1 Learning阶段

由上图可以知道,定位网络最终的输出是一个带有M个位置点的 h×w 的特征图。定位网络的前5层跟经典的AlexNet网络结构一样,然后在第五个卷积层后面加一个卷积核大小是

  • 2
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 13
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

spearhead_cai

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值