【论文阅读】Order-Free RNN with Visual Attention for Multi-Label Classification

目录

Abstract

Introduction

Related Work

Our Proposed Method

A Brief Review of CNN-RNN

Order-Free RNN with Visual Attention

Feature Mapping Layer Mmap

 Attention Layer Matt

 Confifidence-Ranked LSTM Mpred

Experiments

Implementation

NUS-WIDE

MS-COCO

         


Abstract

        本文提出了一种基于递归神经网络(RNN)的图像多标签分类模型。我们的模型独特地集成和学习视觉注意和长短期记忆(LSTM)层,它们共同学习感兴趣的标签及其共存,同时相关的图像区域被视觉关注。与现有的方法在其网络体系结构中使用这两种模型不同,我们的模型的训练不需要预先定义的标签顺序。此外,还引入了一个鲁棒的推理过程,使预测误差不会传播,从而影响性能。我们在NUS-WISEMS-COCO数据集上的实验证实了我们的网络的设计及其在解决多标签分类问题方面的有效性。

Introduction

        多标签分类一直是一个重要和实用的研究课题,因为它需要为每个观察到的实例分配多个标签。从机器学习、数据挖掘和计算机视觉等方面,各种应用程序都受益于多标签分类算法的开发和成功。多标签分类的一个基本且具有挑战性的问题是识别和恢复多个标签的共现性,从而期望得到令人满意的预测精度。

        由于其具有预测保证的表示学习能力,cnn有助于最近在图像分类任务等方面的成功。尽管其有效,但如何扩展cnn来解决多标签分类问题仍是一个有待探索的研究方向。

        CNN-RNN(Wang等人。2016年)通过将这两个特征投影到一个联合嵌入空间中,来嵌入图像和语义结构。通过进一步利用长短期记忆(LSTM)的成分(霍克雷特和施米德胡伯1997),引入了一种递归神经网络(RNN)结构来记忆长期标签依赖性。因此,CNN-RNN表现出良好的多标签分类性能,并隐式地保留了跨标签相关性。

        不幸的是,上述框架存在以下三个不同的问题。首先,由于使用了LSTM,在训练期间需要一个预定义的标签顺序。例如(Wang等人。例如,它的标签顺序是由从训练数据中观察到的标签的频率决定的。在实践中,这种预定义的标签预测顺序可能不能反映适当的标签依赖性。例如,根据标签出现的次数,人们可以获得标签序列为{海、太阳、鱼}。然而,很明显,鱼在语义上与太阳的关系不如海洋相关。为了更好地学习和预测这类标签,应该考虑{海、鱼、太阳}的顺序。另一方面,(Jin和Nakyamaama2016)考虑了四种不同标签顺序的实验设置:字母顺序、随机顺序、频率优先和罕见优先(注意罕见优先与频率优先正好相反)。(金和中山2016)得出结论,罕见的一级产品性能最好。稍后,我们将进行彻底的实验以进行验证,并表明由我们的模型自动学习的顺序将是可取的。

        上述方法的第二个关注点是,在图像中具有较小尺度/大小的物体的标签往往更难恢复。作为一种可能的解决方案,attention map(Xu等。2015年)在图像描述(image captioning)中被广泛考虑(Xu等。2015年),图像问题回答(image question answering)(Yang等人。和分割(Hong等人。2016)。从CNN的某一卷积层中提取的相应的特征图包含输入图像中不同模式的丰富信息。通过进一步关注这种特征图,所得到的注意力图能够识别出图像中的重要成分或物体。通过挖掘在不同的尺度或模式下出现的关联对象的标签相关性信息,上述问题可以适当地缓解。然而,该技术不容易应用于基于RNN的多标签问题的方法。如上所述,这种方法根据发生频率来确定标签顺序。例如,人可能比马在图像集合中出现得更频繁,因此标签序列将被派生为{人,马}。即使马的图像区域通常比人的图像区域大,也可能帮助识别背部的骑手(即要求预测顺序为{马,人})。

        第三,对于解决多标签分类任务,训练和测试程序之间的不一致往往是不可取的。更准确地说,在训练阶段,在训练阶段的每个循环层中,从ground truth列表中选择标签;但是,在测试过程中预测的标签是从整个标签集中选择的。换句话说,如果一个标签在预测期间的一个时间步长中被错误地预测,这种错误会在循环过程中传播,从而影响结果

        为了解决上述问题,我们提出了一种新的视觉参与RNN的深度学习框架,它由视觉注意和LSTM模型组成,如图1所示,特别地,我们提出了一个置信排序LSTM,它反映了所引入的视觉注意模型的标签依赖性。

        我们的联合学习框架与引入的注意力模型允许我们识别与每个标签相关的感兴趣的区域。因此,标签的顺序可以在没有任何先验知识或假设的情况下自动学习。在后来的实验中证实,即使物体在输入图像中以小尺度呈现,相应的图像区域仍然会被视觉关注。更重要的是,我们的网络架构可以同时应用于训练和测试,从而解决了上述的不一致性问题。

        本文的主要贡献如下:

  1. 在不预先确定预测的标签顺序的情况下,我们的方法能够使用引入的LSTM模型按顺序学习标签依赖性。
  2. 在我们的架构中引入的注意模型允许我们关注与每个标签相关的感兴趣的图像区域,这样即使对象的尺寸更小,也可以预期更好的预测。
  3. 通过在统一的网络架构中联合学习注意力和LSTM模型,我们的模型在多标签分类上优于最先进的深度学习方法,即使在训练过程中可能没有正确地呈现ground truth标签。

Related Work

        我们首先回顾了多标签分类方法的发展。直观地说,处理多标签分类问题的最简单方法是将它们分解为多个二值分类任务(Tsoumakas和Katakis2006)。尽管它很简单,但这种技术并不能识别标签之间的关系

        为了了解多标签分类的标签之间的相互依赖性,基于分类器链的方法(Read等,2011)提出了一种方法,该方法通过概率的条件乘积来捕获标签依赖性。然而,除了在处理大量标签时计算成本高外,分类器链对捕获标签之间的高阶相关性的能力有限。另一方面,基于概率图形模型的方法(李、赵和郭2014)学习具有图形结构的标签依赖性和潜在空间方法(Yeh等人。2017年)选择将特征和标签投射到一个共同的潜在空间中。这些方法,如(Yang等人。2016a)进一步利用边界框注释等附加信息来学习它们的模型。

        随着神经网络和深度学习的最新进展,BP-MLL(Zhang和Zhou2006)是首批利用神经网络架构解决多标签分类的公司之一。它将每个输出节点视为一个二进制的分类化任务,并依赖于体系结构和损失函数来利用标签之间的依赖关系。它后来由(Nam等人)采用了最先进的学习技术,如dropout

        此外,最先进的基于DNN的多标签算法提出了不同的损失函数或架构(Gong等。2013年;魏伟氏等人。2014年;胡等人。2016)。(龚等人。2013年)设计一个基于排名的损失,并补偿那些排名最低的损失,(魏伟氏等人。2014年)在多个网格上生成多标签候选对象,并将结果与最大池化相结合,Hu等人提出结构化推理神经网络(Hu等。2016年),它使用了用标签图建模的概念层。

        递归神经网络(RNN)是一种神经网络结构,能够学习顺序连接和内部状态的结构。当RNN已经被成功地应用于顺序学习和预测数据的多个标签时,它通常需要大量的参数来观察上述关联。然而,RNN与LSTM(霍克雷特和施米德胡伯,1997)是利用标签相关性的有效方法。不同领域的研究也应用rnn来处理利用序列中的长期依赖性的序列预测任务,如图像字幕(Mao等。2014年)、语音识别(格雷夫斯、穆罕默德和Hinton2013年)、语言建模(桑德迈尔、Schl¨特和Ney2012年)以及单词嵌入学习(Le和Zuidema2015年)。在多标签分类中,CNN-RNN(Wang等。2016年)是具有良好的代表性工作。然而,CNN-RNN需要一个预定义的标签顺序来学习,它限制识别与小尺寸物体对应的标签将是主要问题。

Our Proposed Method

        本文首先定义了该任务的目标。设D={(xi,yi)}Ni=1={X,Y}表示训练数据,其中X∈Rd×N表示d维空间中的一组N个训练实例。矩阵Y∈RC×N表示相关的多标签矩阵,其中C为感兴趣的标签数。换句话说,yc中的每个维度都是一个二进制值,表示xi是否属于对应的标签c。对于多标签分类,其目标是预测一个测试输入ˆx的多标签向量ˆy。

A Brief Review of CNN-RNN

        CNN-RNN(Wang等人。2016)是一种基于深度学习的多标签分类模型。由于我们的方法可以看作是一种扩展,因此有必要简要回顾这个模型并解释其潜在的局限性。

        如前所述,利用标签依赖性将是多标签分类的关键。在CNN解决这个问题的第一个工作中,CNN-RNN由一个CNN特征映射层和一个长短期记忆(LSTM)推理层组成。当这种体系结构将输入图像及其标签向量共同投影到一个共同的潜在空间中时,LSTM特别恢复了标签之间的相关性。因此,通过最近邻搜索,可以在预测层产生多个标签的输出。

        尽管CNN-RNN的性能良好,但它需要一个预定义的标签顺序来训练他们的模型。除了在学习最优标签顺序方面缺乏稳健性外,如(Wangetal。2016年),如果小尺寸物体的视觉注意信息没有得到正确利用,则难以预测。因此,如何在联合利用相关视觉信息的同时,引入学习最优标签顺序的灵活性,将是我们所提出的工作的重点。

Order-Free RNN with Visual Attention

如图2所示。我们提出的多标签分类模型有三个主要组成部分: 特征映射层Mmap、注意层Matt和LSTM推理层Mpred。特征映射层Mmap使用预先训练过的CNN模型从输入图像xi中提取视觉特征。利用注意层Matt,我们将观察到一组特征图vfeat,其中每个特征图被学习来描述相应的图像语义信息层。Matt的输出然后通过Mpred进行LSTM推理过程,然后通过最后的预测层来生成标签输出。

        在LSTM推理过程中,隐藏状态向量h将用上一个时间步长的标签推理来更新注意层Matt,引导网络在视觉上关注输入图像中的下一个感兴趣区域。因此,这种网络设计允许人们利用相关的视觉信息来利用标签相关性。因此,可以自动观察到标签序列的最优顺序。在下面的小节中,我们将详细介绍我们提出的模型的每个组件。

Feature Mapping Layer Mmap

        特征映射层Mmap首先通过预先训练好的CNN模型提取视觉特征。按照中的设计方法,在(Liu等人。2016年),我们在卷积层后添加一个输出维数为c的全连通层,生成每个标签的预测概率vprob作为一个额外的特征向量。因此,CNN的概率输出可以看作是初步的标签预测。

        在训练过程中给出的ground truth标签(注意正标签为1,负标签为0),Mmap的学习将通过观察对数似然交叉熵来更新全连通层的参数,而预先训练的CNN的参数保持不变。通过将vfeat中的m个k维数的特征图连接起来,我们将vfeat转换为一个单一的输入向量学习视觉注意。因此,Mmap的输出概率向量可以表示如下:

 Attention Layer Matt

        当从输入图像中预测多个标签时,人们可能会遇到较小尺寸对象的标签没有被正确识别的事实。例如,人通常占据了输入图像的很大一部分,而鸟类可能出现在较小的尺寸和角落。为了缓解这一问题,我们在我们提出的架构中引入了一个注意层Matt,目的是在预测相关标签时关注适当的图像区域。受徐等人的启发。他提倡一个基于注意力的软图像标题生成器,我们在我们的框架中推进了相同的网络组件。对于多标签分类,这允许我们在预测过程中聚焦和描述感兴趣的图像区域,同时隐式地利用标签共现信息。在我们提出的框架中,该注意层将生成一个由每个特征图的权重组成的上下文向量,以便在每次迭代中获得被关注的图像区域。稍后我们还将解释,通过这样的网络设计,我们可以在学习基于RNN的多标签分类模型时观察到最优的标签顺序

        遵循多层感知器的结构(Xu等。2015年),我们的注意层Matt是基于之前的隐藏状态h_{t-1}。对于公式2中的每一个vi,注意力层生成一个权重αi,αi∈[0,1],它表示输入图像中特征i的重要性权重,并在这个时间步长中预测标签。更具体地说,我们有:

 Confifidence-Ranked LSTM Mpred

        LSTM作为递归神经网络(RNN)的扩展,另外由三个门神经元组成:遗忘门、输入门和输出门。遗忘门是为了学习适当的权值来擦除记忆单元,学习输入门来描述输入数据,而输出门的目的是控制如何省略内存。

        为了利用和捕获标签之间的依赖关系,我们的网络结构中的LSTM模型Mpred需要确定哪个标签在每个时间步都表现出高一致性。因此,我们将前一个时间步长的软置信向量(注意,vpred=和=ptt1)、上下文向量zt和之前预测的硬标签向量˜ytt1连接起来,以推导当前隐藏状态向量ht。因此,这个状态矢量由上述三个栅极分量控制。通过上述结构观察标签之间的长期依赖性,我们可以利用和利用所得到的标签相关性来改进多标签分类。

        值得注意的是,应用LSTM进行多标签分类的主要困难是它在训练过程中对ground truth label 顺序的要求。通过简单地计算置信向量pt和ground truth 多标签向量y之间的交叉熵,无法定义学习LSTM的标签预测的顺序。此外,标签顺序是否能反映训练图像数据中标签之间的语义依赖性是可取的。

        根据上述观察,我们将我们提出的网络架构中的Mpred视为置信排名LSTM。一旦生成了之前的软置信向量ptt1和硬预测的标签向量˜ytt1,我们的模型将更新ht和注意层Matt。因此,我们将能够产生相应的pt。换句话说,我们的模型实现了对输入图像中语义感兴趣的对象的视觉注意,而不需要预先定义任何特定的标签顺序。因此,不像之前的作品,像(Wang等人。2016年),我们的模型的训练不需要按预定的顺序选择ground truth labels 。相反,我们通过直接比较软置信向量与ground truth label向量来计算损失。通过我们的视觉注意力加上LSTM组件,训练过程将与测试阶段相一致。由于上述过程依赖于视觉语义信息来进行多标签预测,因此我们的模型的主要优点之一是,可以缓解在应用基于RNN的方法时可能存在的错误传播问题

Experiments

Implementation

        为了实现我们提出的体系结构,我们应用了ResNet-152。在Imagenet上进行网络训练,并使用底部第四卷积层进行视觉特征提取。我们还在卷积层之后加了一个维数为c的全连通层。我们使用Adam优化器,学习率为0.0003,dropout为0.8来更新fpred。我们对波束搜索的停止阈值进行了验证。对于注意力参数和LSTM模型的参数,我们遵循(Xu等。2015年),以供实施。

        为了评估我们的方法的性能,并与最先进的方法进行比较,我们报告了NUS-WIDE和MS-COCO的基准数据集的结果,这将在下面的小节中讨论。

NUS-WIDE

NUS-WIDE是一个网络图像数据集,其中包含269,648张图像,总共从Flickr收集了5,018个标签。收集到的图像被进一步手工标记为81个概念,包括物体和场景。我们遵循WARP的设置(Gong等。2013年)对于去除无任何标签图像的实验,即考虑15万张图像进行训练,其余图像进行测试。

MS-COCO

MS-COCO是通常考虑用于图像识别、分割和字幕的数据集。训练集由82,783张图像组成,多达80个标注对象标签。

         

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值