为了提取多标签分类中标签之间的高阶关联性,一些方法使用统计相关性。然而,基于统计的方法有如下缺点:从训练数据中获得的标签对之间的共现模式是不完整的和有噪声的(有的统计特征可能是训练集特有的);在全局中构建标签共现图,这可能会对罕见的标签相关性有偏倚;统计标签相关性可能形成长尾分布,即,一些类别非常常见,而大多数类别有很少的文档。
为了解决上述问题,本文提出了一种新的标签特异性对偶图神经网络(LDGN),该网络利用类别信息从文档中学习标签特异性成分,并采用双图卷积网络(dual Graph Convolution Network, GCN),基于统计标签共现和动态重构图,联合建模这些组件之间的完整自适应交互,取得良好性能的同时,也提升了对tail标签的识别率。
Model
如下图所示,模型主要由两个模块组成:1) labelspecific document representation 2) dual graph neural network for semantic interaction learning。特定标签的文档表示学习描述了如何从每个文档中混合的标签信息中提取特定标签的语义组件;而用于语义交互学习的对偶图神经网络则说明了如何在统计标签共现的先验知识和动态重构图的后验信息的指导下,准确地探索这些语义成分之间的完整交互。
Label-specific Document Representation
首先,使用LSTM将文本转化为向量
h
∈
R
∣
J
∣
∗
D
h\in R^{|J|*D}
h∈R∣J∣∗D,其中
J
J
J表示单词。之后,使用标签引导注意机制来学习特定于标签的文本表示。标签的特征可以使用一个随机初始化的向量表示
C
∈
R
∣
C
∣
∗
d
c
C\in R^{|C|*d_c}
C∈R∣C∣∗dc,那么基于标签注意力的label specific semantic components可以表示为:
u
i
∈
R
D
u_i\in R^D
ui∈RD表示标签
c
i
c_i
ci在每一个文档上携带的信息量。这个
u
i
u_i
ui构成的矩阵
U
∈
R
∣
C
∣
∗
D
U\in R^{|C|*D}
U∈R∣C∣∗D作为后续图网络的输入。
Dual Graph Neural Network
统计训练集中标签之间的成对概率可以得到初始的矩阵
A
s
∈
R
∣
C
∣
∗
∣
C
∣
A^s\in R^{|C|*|C|}
As∈R∣C∣∗∣C∣,并借助两层的GCN获取进一步的聚合特征
H
2
∈
R
∣
C
∣
∗
D
′
H^2\in R^{|C|*D'}
H2∈R∣C∣∗D′。之后,为了更完整、更自适应地捕捉这些组件之间的交互,利用
H
2
H^2
H2动态地重建邻接图,弥补了共现矩阵的不足。然后利用动态重建图的后验信息,重新学习标签特异性成分之间的相互作用。为了更完整、更自适应地捕捉这些组件之间的交互,我们利用上述组件表示H2动态地重建邻接图,弥补了共现矩阵的不足。然后利用动态重建图的后验信息,重新学习标签特异性成分之间的相互作用。具体来说,重构矩阵是两个基于
H
2
H^2
H2变换的相似度:
f
f
f是sigmoid。之后,又是两层GCN,以
H
2
H^2
H2作为输入,最终得到
H
4
H^4
H4。之后,
H
2
H^2
H2与
H
4
H^4
H4进行拼接,并预测标签概率分布
y
^
\hat{y}
y^。损失函数为:
Experiment
数据集:
Evaluation Metric:precision at top K (P@k) and Normalized Discounted Cumulated Gains at top K (nDCG@k)。
模型性能,主要对比的算法是LSAN:
消融实验,对比了三种不同变体:
S:仅与统计标签共现的基于图的语义交互;
D:仅与动态重构图进行基于图的语义交互;
no-G:哪个图都不用。
tail标签评价,采用了propensity scored precision at k (PSP@k)。原文给出的参考文献并没有给出详细的解释,这里我参考了另一篇文献。具体来说,PSP@k在计算过程中添加了propensity score,参考文献的话说For label
l
l
l, its propensity
p
l
p_l
pl is related to number of its positive training instances
N
l
N_l
Nl,具体来说:
这使得出现次数越高的标签会有更高的propensity score(
P
r
a
n
k
(
l
)
P_{rank(l)}
Prank(l))。然后,PSP@k计算方式为:
这使得对出现次数较少的tail标签的权重增加。对比实验结果如下:
不同标签权重的可视化,颜色越深表示注意力越高:
两个不同邻接矩阵的可视化:
可见相比于静态的基于统计的向量,动态的矩阵更能捕捉cy-ce这俩之间的相关性。