CVPR19 基于图卷积网络的多标签图像识别模型论文笔记

最新推荐文章于 2024-05-14 13:39:01 发布

phython96

最新推荐文章于 2024-05-14 13:39:01 发布

阅读量2.4k

点赞数 3

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37517391/article/details/89916440

版权

深度学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

笔记

旷视研究院的研究员提出了如下模型,用于图像的多标签分类.
在这里插入图片描述
该模型与一般模型不一样的一点是,它的分类器是生成的,因此它有一个专门生成分类器的子网络.

网络主要由两部分构成

特征表示子网络,该网络由ResNet-101构成,即蓝色框圈出的部分.
分类器生成子网络,该网络由3个GCN层串联组合而成,即红色框组成部分.

动机

基于标签的共现模式，旷视研究员设计了一个全新的标签相关系数矩阵，可显式地用 GCN建模标签相关性，让节点的特征在更新时也能从相关联的节点（标签）吸收信息。
由于从词嵌入向量到分类器的映射参数在所有类别中是共享的，所以习得的分类器能够在词嵌入空间中（语义相关的概念在词嵌入空间中彼此临近）保留较弱的语义结构。与此同时，对于可以对标签依赖性进行隐式建模的分类器函数，所有分类器的梯度都会对它产生影响。

GCN层

每个标签可以看做是一个特征向量.
在第一层的时候,标签的特征向量是 $d$ 维度的,刚好是一个词嵌入向量.
在第二层的时候,标签的特征向量是 $d^{'}$ 维度的,是经过了一个转换矩阵 $W^2$ 的映射.
在第三层的时候,标签的特征向量是 $D$ 维度的,也是经过了一个转换矩阵 $W^3$ 的映射,映射完之后,每个标签的特征向量维度刚好和ResNet101抽取到的特征维度相同了,因此可以作为该标签的分类器了.
这对应第2个动机.

至此还未用到标签间的拓扑图结构,也就没有用到标签间的共现关系,因此他们设计了一个共现矩阵 $A$ ,用于引导信息在标签间的传递.
$\in R^{n*n}$ ,其中 $n$ 是标签的数量.
矩阵是一个先验矩阵,不需要被学习.
这就对应了第1个动机

因此得到了GCN变换公式:

$H^l \in R^{n*d},W^l\in R^{d*d'},A\in R^{n*n}$

$H^{l+1}=h(AH^{l}W^{l})$

$A$ 的设计

在这里插入图片描述
如图所示,一个很朴素的想法,就是计算一对标签的条件概率作为他们的相关系数.
这样有两个坏处

测试和训练过程中的条件概率可能会不一样.
存在噪音问题导,致长尾分布.

作如下改进: 将矩阵进行二值化,设置一个阈值 $\tau \in [0,1]$

$A_{ij}=[P_{ij} \ge \tau]$

二值化之后解决了上述两个问题,然而也会引入新的问题,即过度平滑问题.

因此他们提出了二次加权的方法:

在这里插入图片描述
$p$ 是一个预设的超参数.
当 $\rightarrow 1$ 的时候,节点自身的特征往往不会被考虑.
当 $\rightarrow 0$ 的时候,节点相邻点的特征往往不会被考虑.

细节

当一个标签包含多个单词的时候,将所有单词的embedding取平均.

实验结果

在这里插入图片描述

可视化

通过对分类器的可视化,我们可以发现,确实使用GCN可以学习到吧标间之间的内在关联性.

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
CVPR19 基于图卷积网络的多标签图像识别模型论文笔记

笔记旷视研究院的研究员提出了如下模型,用于图像的多标签分类.该模型与一般模型不一样的一点是,它的分类器是生成的,因此它有一个专门生成分类器的子网络.网络主要由两部分构成特征表示子网络,该网络由ResNet-101构成,即蓝色框圈出的部分.分类器生成子网络,该网络由3个GCN层串联组合而成,即红色框组成部分.动机基于标签的共现模式，旷视研究员设计了一个全新的标签相关系数矩阵，可...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。