深度多标签论文阅读(三)

对阅读的十八篇深度多标签论文进行简要叙述。
十三、 2019-CVPR-Visual Attention in Multi-Label Image Classification
本篇文章提出了一个新的网络去解决多标签问题,该网络结合了多标签图像的分类特征(the features for classification)和图像的视觉显著性特征(如同人对不同图像的注意区域是不同的)(image saliency),因此网络分成两个部分,第一部分进行分类特征产生,第二部分进行视觉显著性特征产生,并在实验中证明显著性特征对多标签分类有很大帮助。
在这里插入图片描述
相关工作中提到多标签问题的解决思路过程,从CNN到RNN到CNN-RNN到CNN-LSTM到attention mechanisms,但是这些attention mechanisms并没有详细说明人类视觉注意力显著性特征是如何体现的,之后一部分提到了现今的一些深度显著性预测模型DeepGaze I,DeepGaze
II等等。
Analysis部分分析了Visual Saliency and Multilabel Classification之间的紧密关系,用三个指标进行了衡量,首先是目标图像大小(越大的物体越容易被识别),第二是物体靠近图像的中心(越靠近中心越容易被识别),第三是显著性(the maximum saliency value in an object’s mask)(图像显著性越强的物体越容易被识别)
之后进行网络结构介绍,由图所示,但是没太看懂那个branch是什么玩意,文章最后采用的Multiple Cross Entropy(MCE)也是专门用于多标签分类的。
十四、 2019-ICASSP-DECOUPLING CATEGORY-WISE INDEPENDENCE AND RELEVANCE WITH
文章提出了一种新的多标签注意力模型机制(attention mechanism)将CNN学到的标签特征进行进一步处理之后和相关性学习部份进行结合,最后通过空间池化得出分类得分。CNN处理后产生的特征通过Category-wise space-to-depth部分,此部分分为上采样(为卷积图像保留了更多局部细节信息)和Space-to-Depth Structure部分(将各个标签特征图像进行扩展成m个feature maps,每个特征图描绘了每个标签特征的各部分空间信息)。至于相关性学习分为可选的两个部分,第一部分直接通过CNN产生的特征作为输入(保留更多的局部细节信息),第二部分直接以Category-wise space-to-depth部分输出的multiple feature map作为输入,也就是直接从产生的class-independent features学习class relevance。
在这里插入图片描述
We apply a Binary Cross-entropy loss in the training
十五、 2019-ICCV-Learning Semantic-Specific Graph Representation
本篇文章也是一种图方法,整体分为两大部分,第一部分用CNN产生feature,当然这些feature和具体的分类标签没有一一对应起来,将产生的feature送入semantic decoupling module,去学习feature的具体语义特征,在模型中的参数中也加入了具体的标签位置特征作为语义信息,输出的是每一类对应特征向量。之后进行各个标签特征相关性的学习部分,此部分用一个图模型进行构建,通过各标签同时出现的情况和用一个graph neural network进行信息逐层的传递学习
各个标签特征的相关性。

在这里插入图片描述
在这里插入图片描述
相关工作中提到了一些解决多标签问题的方案:object localization and deep learning techniques相结合的方法,但是localization往往计算冗余很大,有的产生额外的bounding box去训练模型,计算量很大,为了解决这样的问题,用attention mechanism to locate the informative regions,但是由于缺少必要的监督行和引导,这些方法只能很粗糙的定位标签信息。图方法在捕捉相关标签同时出现时十分有帮助。之后又有一些,CNN-RNN, recurrent attention reinforcement learning framework去捕捉图像标签的依赖性,但是RNN时按顺序进行标签依赖关系的捕捉,但是标签依赖性可能存在于各个标签对中。本篇文章的graph propagation mechanism往往能发现各个标签对的依赖关系,并且暗含了特征向量中暗含了category semantics information,因此表现会更好。
十六、 2019-TNNLS-G-Softmax- Improving Intraclass Compactness and Interclass Separability of Features
本篇文章提出了一种新的基于高斯分布的softmax方法,相比于传统的softmax可以提高类内特征紧凑型,和类间特征分离度,其中的过程主要是一些数学原理,较为复杂,不太能看懂。但是此方法能取代传统的softmax并在单标签和多标签分类中都可以应用。
在这里插入图片描述
在这里插入图片描述
十七、 2019-TNNLS-Reconstruction Regularized Deep Metric Learning
本篇文章涉及到度量学习,主要思想在于构建统一的潜在图像和标签度量空间,使得图像和相应的目标标签距离小于图像和其他临近标签的距离,并且也小于这些临近标签对应的其他图像之间的距离。

在这里插入图片描述
在这里插入图片描述
左边的Embedding Net将图片和对应标签分别输入CNN和DNN构建一个共同的Latent space,之后输入到右边的Deep Metric Net中,Deep Metric Net分为三个部分,首先最上面用image embedding进行分类模型的构建,之后用于分类的标签预测,并且得出相应的classification loss,最下面的reconstruction module 用label embedding作为输入,用于微调label embedding的表示,也就是标签之间的依赖关系调整,中间的Two-way Distance Metric module作为一个正则化项,去最小化上述的两个距离,并且产生loss1和loss2,这里用到输入图像的KNN和输出label的KNN,也就是为了最小话上述两个距离,使得图像和标签更加discriminative,在每次迭代中都要找到图像和标签的k临近,因此计算量也会比较大。
在这里插入图片描述 总的LOSS
训练过程如下:先用ImageNet图像和标签去训练Embedding Net的CNN和DMN的classification module,loss只用第一部分 在这里插入图片描述(交叉熵)。之后我们注意力放在Embedding Net 的DNN和DMN的下面两部分,也就是用 在这里插入图片描述来训练DNN网络和reconstruction module。最后我们用整体loss去微调所有module
十八、 2019-TPAMI-Multilabel Deep Visual-Semantic Embedding
本篇文章并没有用复杂的网络结构或者一些local region attention mechanism或者bounding box之类的方法,而是提出用CNN学到的图像特征去学习一个转换矩阵,将之前的标签特征在word space的杂乱现象改变为相关标签更紧凑,而不相关标签在word space距离变远的形式,这样就可以轻松找到多标签之间的关联关系。
在这里插入图片描述
Loss计算过程:因为目的是学习一个转换矩阵A在这里插入图片描述,因此,我们将图片输入CNN后得到一个转换矩阵A, ,将图片的标签分为相关的及不相关的,并分别乘以转换矩阵A,计算二者在word space之间的距离,理想情况下应该是: 在这里插入图片描述(pi——positive label , nj——negative label),然后用一种pairwise ranking loss来衡量这个距离和理想距离的差距,之前有的论文用在这里插入图片描述

但是还有一种更加平滑的
在这里插入图片描述
本文提出的转换矩阵其实是一种线性转换linear transformation,也许用非线性转换会得到标签间更深的依赖关系。

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值