Your “Flamingo“ is My “Bird”：Fine-Grained or Not

大烤翅

于 2021-09-12 16:51:16 发布

阅读量807

点赞数 2

分类专栏：论文笔记文章标签：细粒度图像分类多任务学习标签层次结构特征分解多粒度预测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39627422/article/details/120251378

版权

目录

摘要 Abstract

1 介绍 Introduction

2 相关工作 Related Work

细粒度图像分类

多任务学习

3 人类研究 Human Study

数据和参与者步骤

4 方法论 Methodology

合作还是对抗？

分解和加强

5 实验环境 Experimental Settings

6 结果和分析 Results and Analysis

和基线的对比

在传统FGVC上的改进

标签层次结构扮演的角色

7 讨论 Discussion

多任务学习之外

从分类到检索

对ImageNet预训练的重新思考

8 结论 Conclusion

摘要 Abstract

“你在图中看到的是火烈鸟还是一只鸟？”，这是这篇文章开头提出的问题。当细粒度视觉分类(Fine-Grained Visual Classification,FGVC)在努力实现前者（火烈鸟）的目标时，对于我们中的大多数非专业鸟类学者，了解到它是一只鸟可能就已经足够了。

问题：我们该怎样为具有不同专业程度背景的人，改变不同的细粒度定义？

引出：为此我们重新设想，将传统的FGVC由单一标签分类，变为自顶向下遍历一个预定义的、从粗到细的标签层次结构。也就是，"鸟类"→“火烈鸟目”→“火烈鸟科”→“火烈鸟”。

大致工作：

首先进行了一个实验→证明大多数的人不管是不是专家，都更偏好多粒度标签、
关键intuition：粗水平标签预测会对细粒度特征学习产生负面影响，而细粒度特征会对粗水平分类器的学习产生积极影响。（粗的标签预测会影响细的，让它的效果变差，细的却会让粗的变好）

基于这个发现，我们设计了一种简单却有效的方案：

利用特定层级的分类，分离粗级别特征与细粒度特征
允许细粒度特征参与粗粒度标签的预测，这反过来有助于更好地消除混淆

实验显示，我们的方法达到了优秀表现，在传统的单一标签FGVC问题上也比最先进的方法表现得更好。由于简单，我们的方法可以在任何现存的FGVC框架上简单地实现，且无额外参数。

1 介绍 Introduction

首先是一篇20年前的经典标志性文章提出的关键问题：识别对象时，机器可以达到足够的细粒度水平，和人类的水平相匹配吗？近些年来的学术研究取得了很大的进展，目前，学界关注度已经放在挖掘细粒度的辨别特征，以获得更好的分类表现上了。

本文中，我们也对细粒度理论很感兴趣——但是我们不追求获得更好的表现，我们更加关注细粒度分类本身的定义——FGVC数据集上常见的专家级别的细粒度标签，是否传达出了用户习惯的内容？“波音737-200”，“菲斯克Karma 2012”，“佛罗里达灌丛鸦”，这些专业度很高的名词是不是用户真正想要的，或者说“飞机”、“汽车”、“鸟类”这些词是否已经足够？

这也就是文章标题，我的“火烈鸟”可以是你的“鸟类”。对于上面的问题，答案当然是主观的，并且很大程度上和专业知识相关——你对鸟类的喜爱程度越高，你需要的细粒度标签就越细致，有时候甚至可能“火烈鸟”还不够，你更希望看到“美国火烈鸟”。

接下来的问题是，我们该如何改变各种主观的细粒度定义？并设计一个最适合FGVC实际使用场景的系统。

为了解答这个问题，引出摘要中说的实验，带着两个问题来进行这个实验：

预定义的细粒度标签对普通用户有多大用处？
输出一个单一标签是否是一个更好的方案？

实验数据集：CUB-200-2011，这是一个鸟类数据集，我们根据维基百科中该鸟类的父类，手动构建一个标签的层次结构。

实验人员：50名具有不同鸟类知识背景的参与者。

实验步骤：

每个人分到100张鸟类照片，选出一个与图片上的鸟相关的，细或粗粒度的标签
指出除了先前选择的单个标签外，是否还需要选择更多的标签

实验发现：

参加者不一定选择预定义的细粒度（底层）标签作为他们的偏好
在全部返回的选择中，只有36.4%更喜欢单一的标签
尽管这个领域的专家们倾向于选择更精细的细粒度标签，业余人士更喜欢相对粗略的，但将近80%的专家也转向选择多粒度标签

我们的目的是重新实例化FGVC问题，将它从单一标签分类问题扩展到在预定义标签层次结构上的多标签预测。 中心思想是：当人们开始对一个单一的专业标签感到困惑时，用一条从粗到细的标签链来描述对象更加有实践意义——我们把它留给用户来决定，决定在层次结构中最符合他们需要的细粒度水平。

我们的两个关键发现：

粗粒度特征不利于细粒度特征的学习（粗不利于细）
细粒度的标签学习可以被利用来提升粗粒度标签分类的辨识能力（细有利于粗）

根据上述两个关键发现，我们的措施：

一个执行分层特征分解的多任务学习框架，目的是分离细粒度特征中粗粒度特征的不利影响
仅在前向传播时，令细粒度的特征参与粗粒度标签的分类

我们的贡献：

我们重新设想了FGVC问题，以适应“细粒度”的各种主观定义，提倡从粗到细的标签层次结构的自顶向下遍历，而不是传统的单一标签分类；
我们发现了固有的粗-细层次关系上重要的见解，可以引领我们的模型设计
通过将粗粒度特征学习与细粒度特征学习分离，在我们提出的新问题和FGVC的传统问题上都能实现最优的性能

2 相关工作 Related Work

细粒度图像分类

机器学习作为一个强大的工具，它的出现使得FGVC取得了显著突破。与常规的通用图像识别任务对比，FGVC需要一个特别关注微妙的、常人肉眼难以发觉的局部图像信息的模型。 FGVC的主流工作分为两个阶段：

采用定位子网络来定位关键视觉信息
采用一个分类子网络来实现标签预测

在这篇文章中，我们研究一个特别的FGVC设置，为一张图像的不同粒度生成多种输出标签。

多任务学习

我们在FGVC中采用了类似的基本动机——通过确定不同粒度下标签预测之间的转变的影响，来实现多任务学习。更特别的是，我们提供了一个新的解决方法，来同时强化积极的、减弱消极的任务转变。

3 人类研究 Human Study

我们做这个人类研究实验是为了显示：

现有的FGVC模型生成的单一的细粒度标签不能匹配实践中对标签粒度的多变的主观需求
覆盖一系列粒度的多标签输出能够弥合不同人群

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。