深度多标签论文阅读(一)

对阅读的十八篇深度多标签论文进行简要叙述。初步阅读。
通过十八篇论文我理解到了如下一些信息:
觉得要做哈希的话和之前的单标签不同的地方主要还是特征的学习,单标签的学习的特征直接就是CNN得到的,但是多标签看了这么多篇发现很多都是解决标签之间semantic relationship和 co-occurrence dependency的问题,很多都是通过CNN+一个附加网络来得到拥有更多语义和空间信息的特征,之后用来做多标签分类。我不太清楚能不能直接将暗含多标签语义和空间信息的特征直接转化成哈希码,就对哈希问题有帮助了。而且我觉得哈希和度量学习关系可能更大一些,如何将采集到的特征进行表示,或者说embedding,对哈希效果应该有决定性影响。
一、 2016-CVPR-CNN-RNN-A Unified Framework for Multi-label Image Classification
在这里插入图片描述
多标签处理,CNN和RNN的结合
It contains two parts:
The CNN part extracts semantic representations from images; the RNN part models image/label relationship and label dependency
RNN部分运用到LSTM网络,同时实现了semantic redundancy and the co-occurrence dependency,,先进行主要标签预测为细节标签提供context,之后进行图片细节标签预测(先第一行,后第二行)
在这里插入图片描述

先前文章对于semantic redundancy有较多涉及:
The joint image/label embedding maps each label or image to an embedding vector in a joint low-dimensional Euclidean space such that the embeddings of semantically similar labels are close to each other, and the embedding of each image should be close to that of its associated labels in the same space.
但是co-occurrence dependency往往被忽略,本篇文章提出的long short term memory(LSTM)解决了co-occurrence dependency问题:
The high-order label co-occurrence dependency in this low-dimensional space is modeled with the long short term memory recurrent neurons
搜索标签过程采用集束搜索(beam search algorithm)
在这里插入图片描述
关于训练标签顺序问题:
One important issue of training multi-label CNN-RNN models is to determine the orders of the labels. according to their occurrence frequencies in the
training data. More frequent labels appear earlier than the
less frequent ones, which corresponds to the intuition that
easier objects should be predicted first to help predict more
difficult objects.
评价指标度量:精确度和召回率和其他的一些指标map
The precision and recall of the generated labels are employed as evaluation metrics
在实验过程中发现,CNN-RNN model在学习joint label embedding 后产生的各标签nearest neighbor labels往往反映出更加细致的特征:For
example, the nearest neighbor labels “hawk” and “glacier”
are more fine-grained than “bird” and “landscape”
Visualize RNN在处理标签时的attention过程(先第一个,后第二个)
This image has two ground-truth labels: “elephant” and “zebra”.
在这里插入图片描述
二、 2016-CVPR-WELDON-Weakly Supervised Learning of Deep Convolutional Neural
提出了一种新的弱监督学习Weakly Supervised Learning(WSL)卷积神经网络模型,参照了之前一些多示例学习Multiple Instance Learning (MIL)的优点。创新点在于样本上和模型结构上:
1.incorporating top instance and negative evidence insights into our deep prediction function
2. We improve deep WSL training in by introducing a specific architecture design
多示例学习(Multiple Instance Problem):数据有标记,但标记的目标不是一个样本,而是一个数据包(bag)。当一个bag的标记为负时,这个bag里面所有样本的标记都是负的。当一个bag的标记为正时,这个bag里面至少有一个样本的标记为正。 我们的目标是学习得到一个分类器,使得对新输入的样本,可以给出它的正负标记。这样的一类问题就是多示例问题。比如做检测问题,标记训练图片样本的时候需要给出一个矩形框指明目标的位置,有可能标的不够准确,导致不同的样本之间对不齐,这时候可以将标记的矩形框做一些局部扰动得到一些新的矩形框,将它们一起看成一个bag,其中总有一个是最佳的正样本,也就是标记为正。而取一张没有目标的图片,作为负样本包:无论在里面怎么截取图片,都是负样本。

多示例问题求解方法:迭代优化(alternative optimization)。也就是说,我们先假设已经知道了所有样本的标记,那么就可以通过某种监督学习的方法得到一个分类模型,通过这个模型我们可以对每个训练样本进行预测,然后更新它们的标记,我们又可以拿这一次新得到的标记重新训练分类模型了。所以整个优化过程分为两部分:监督学习,标记更新。
需要注意的地方:

1)训练监督学习模型的时候,只从正样本包里挑选被预测的“最像正确”(也就是分类得到最高)的那一个,正样本包里面其他的样本,不管预测出来的是正还是负的都不要了。这是因为,其中多示例的问题也可以描述为,正样本包里面“最正确”的一个样本标记是正的,跟其他样本无关。所以,这种选择策略恰恰是符合问题定义的。

2)如果负样本足够多的话,可以只挑选每个负样本包里面被预测“最像正确”的一个样本作为负样本进行训练,这样的负样本也叫做hard sample 或者 most violated sample。实践中,它们对于模型快速收敛是最有效的。
Bag-of-words model (BoW model) 最早出现在NLP和IR领域. 该模型忽略掉文本的语法和语序, 用一组无序的单词(words)来表达一段文字或一个文档. 近年来, BoW模型被广泛应用于计算机视觉中. 与应用于文本的BoW类比, 图像的特征(feature)被当作单词(Word).
引子: 应用于文本的BoW model
Wikipedia[1]上给出了如下例子:
John likes to watch movies. Mary likes too.

John also likes to watch football games.
根据上述两句话中出现的单词, 我们能构建出一个字典 (dictionary):
{“John”: 1, “likes”: 2, “to”: 3, “watch”: 4, “movies”: 5, “also”: 6, “football”: 7, “games”: 8, “Mary”: 9, “too”: 10}
该字典中包含10个单词, 每个单词有唯一索引, 注意它们的顺序和出现在句子中的顺序没有关联. 根据这个字典, 我们能将上述两句话重新表达为下述两个向量:

[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]

[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

这两个向量共包含10个元素, 其中第i个元素表示字典中第i个单词在句子中出现的次数. 因此BoW模型可认为是一种统计直方图 (histogram). 在文本检索和处理应用中, 可以通过该模型很方便的计算词频.
应用于计算机视觉的BoW model[2]
Fei-fei Li[3]在中提出了用BoW模型表达图像的方法. 他们认为, 图像可以类比为文档(document), 图像中的单词(words)可以定义为一个图像块(image patch)的特征向量. 那么图像的BoW模型即是 “图像中所有图像块的特征向量得到的直方图”. 建立BoW模型主要分为如下几个步骤:

  1. 特征提取
    假设有N张图像, 第i张图像图像可由n(i)个image patch组成, 也即可以由n(i)个特征向量表达. 则总共能得到sum(n(i))个特征向量(即单词).
    特征向量可以根据特征问题自行设计, 常用特征有Color histogram, SIFT, LBP等.
  2. 生成字典/码本(codebook)
    对上一步得到的特征向量进行聚类(可以使用K-means等聚类方法), 得到K个聚类中心, 用聚类中心构建码本.
  3. 根据码本生成直方图
    对每张图片, 通过最近邻计算该图片的每个 “单词”应该属于codebook中的 “哪一类”单词, 从而得到该图片对应于该码本的BoW表示.

这篇文章中:
在这里插入图片描述
挑选top 3正例,top3负例,进行结合,用AP进行loss计算
在这里插入图片描述
三、 2017-AAAI-LearningDeepLatentSpacesforMulti-LabelClassification
关于多标签问题其中一个解决办法就是label embedding + RNN(CNN-RNN),之前有的论文选择学习a linear label embedding function,since only linear embedding was considered, higher order dependency between different labels might not be successfully discovered
本篇文章joint feature and label embedding by deriving a deep latent space, Different from most label embedding based methods which typically view label embedding and prediction as two separate tasks, our C2AE advances deep canonical correlation analysis (DCCA) and autoencoder to learn a feature-aware latent subspace for label embedding and multi-label classification
将label embedding和multi-label classification用feature-aware latent subspace整合在一起
四、 2017-CVPR-Improving Pairwise Ranking for Multi-label Image Classification
Pariwise ranking based multi-label image classification 的改良:之前在Pariwise ranking的工作中,分类分为两个步骤,第一:对每一种标签进行一个ranking排名,之后选择一个阈值thresholding将超过阈值的标签作为输出。但是往往存在以下两个问题:第一:在优化时往往采用hinge loss而此loss函数不够平滑难以优化;第二:在选择阈值时通常采用Top-k选择法,限制了在现实世界中的图片的可能性(可能有大于k个的标签)。本文提出两个创新点:第一、采用一个新的更平滑的loss。第二,在阈值选择中,在model中添加了一个label decision module
在这里插入图片描述
关于loss部分使用的log-sum-exp pairwise (LSEP) function,和其他两个pairwise ranking 的loss WARP loss和BP-MLL loss进行了比较
在related works中提到了解决多标签问题的一些方法:
Recent approaches exploit various properties of the multilabel problem, e.g., label dependency [1, 17, 38, 25], label sparsity [10, 12, 27], and label noise [33, 39, 4]. Among these, perhaps the most common approach is to leverage the relationship between labels
标签依赖,稀疏标签问题,标签噪声,还有CNN的应用,还有此文的pairwise ranking
五、 2017-CVPR-Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification
本篇文章旨在解决多标签问题标签依赖中的,标签的空间关系(spatial relations)。相关工作中提到了解决标签依赖的语义关系(semantic relation)的一些文章和方法(probabilistic graphical models,structured inference neural network Recurrent Neural Networks (RNNs))。第三篇文章的通过潜在空间发现图像特征和标签embedding和这个也有一点相似 (joint feature and label embedding by deriving a deep latent space)。这篇文章是通过一个SRN网络为所有的标签生成一个attention map解决标签依赖的空间关系,第三篇也是通过空间关系,只不过解决的问题有点不同。
相关工作中提到了一些多标签分类的应用场景,和一般的没有注意到标签依赖的深度多标签处理方法,转化成多个单标签,多标签转换成多个多分类等,还有一些注意到标签依赖的:training a chain of binary classifiers, probabilistic graphical models,maximum spanning tree,determining structures of the label relation graphs,深度解决标签依赖的:structured inference neural network,sequential prediction problem, RNN。但是这些都没注意到spatial relations而只注意到了semantic relations
最后指明了文章用的spatial attention mechanism
文章的另一特点是:with only image-level annotations, thus requires no additional efforts on image annotations 也就是说,在多标签问题中,标签的位置关系往往没有体现在标签中,而标签相互的位置关系往往对标签之间相互依赖有很大的帮助,但是此文章用一个SRN网络,可以为标签构建一个位置特征,让标签的位置信息保存在模型的相关参数中,即在之后的图像分类中,图像标签位置权重大的地方attention的多。
Weighted attention是结合了confidence map后的结果,attention map更像是一个判定规则,而confidence map像一个实例,二者结合得出最后结果
在这里插入图片描述
网络如下:
在这里插入图片描述
上面就是一个较为标准的CNN,是为每一个标签训练一个分类器,而下面的SRN网络,产生attention map是用来给每个标签生成相应的局部注意力区域,的confidence map就是生成分类信息,confidence map结合的是全局的特征,总结了C个标签各自特征信息图,A和S相结合可以更加准确的得出每个标签到底有没有出现在图中,最后通过fsr输出多标签预测向量。Final Predictions是综合了传统分类和注意力机制分类的结果,用一个α系数,将二者loss统一:ˆy = αˆycls + (1 - α)ˆysr。
在这里插入图片描述
在综合过程中因为参数过多,而将一些没有关联的标签的位置信息关联参数关系进行忽略,此部分网络见上图。
此文章运用的spatial relation又和第一篇CNN-RNN有共同之处。
六、 2017-CVPR-Semantic Regularisation for Recurrent Image Annotation
本篇文章针对CNN-RNN模型进行了相关优化,一般的CNN-RNN模型只用CNN的输出特征作为RNN的输入接口,如此一来,RNN部分就要完成两个任务:预测标签概念信息和整合标签依赖关系,而且CNN输出的特征其实并没有很强的语义意义(significant semantic meaning),对于RNN进行学习很不利,而且这样单纯的CNN-RNN模型优化起来也很困难,即bp时需要通过RNN优化CNN。本文中在CNN和RNN中间加一层semantically regularized embedding,让CNN学习的特征更有语义意义,并且有利于bp和优化,收敛更快,文章在多标签分类和图片字幕上做了相关实验。(d)为本文结构
在这里插入图片描述
相关工作中提了一些关于深度多标签学习的工作主要是CNN-RNN方面的,说了本文incorporate side information,还有一些深度图像字幕生成,提到了visual attention , attention mechanism,还有一些类似的semantic regularization 中间层的文章。
之后网络结构训练方面:
在这里插入图片描述
CNN和RNN因为又中间层s的分离,可以并行进行训练,之后再进行合并(合并部分有点没看懂),CNN部分一个LOSS将输出和语义意义信息进行比对,RNN一个LOSS将输出顺序和ground truth进行比对(加入预测标签顺序后就可以进行图像字幕的添加),之后合并时一个总loss进行两部分融合。

  • 4
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值