EMNLP2021
Introduction
分层多标签文本分类(HMTC)处理具有挑战性的任务,其中一个实例可以同时分配给多个层次结构的类别。以往的大多数研究要么专注于将HMTC任务简化为一个扁平的多标签问题,忽略了垂直类别相关性,要么利用不同层次上的依赖关系,而没有考虑同一层次上类别间的水平相关性,这不可避免地会导致基本信息的丢失。因此,本文设计了一个松散耦合的图卷积神经网络Loosely Coupled Graph Convolutional Network(LCGCN) 作为表示提取器,以获取单词、文档的表示,更重要的是,获取类别的级别表示。之后,利用学习后的类别表示方法来捕获类别层次间的垂直相关性,并对水平相关性进行建模。最终,设计了一种混合预测方法对最终的文档进行标签预测。
举例说明如图1,蓝色表示NLP相关的标签;红色表示CV。
C
2
C^2
C2层级的标签包含多标签分类以及层次分类,显然这两个标签不但都属于NLP(垂直相关),本身也具备一定的关联性(水平相关),因此本文旨在建模标签的这种相关性。
METHODOLOGY
Problem Definition
首先,需要明确定义标签的层级关系
H
H
H。假定标签体系内一共有
H
H
H层,每一层的标签可以表示为
C
=
(
C
1
,
.
.
.
C
H
)
C=(C^1,...C^H)
C=(C1,...CH)。而其中,
C
h
=
(
c
1
,
c
2
,
.
.
.
)
∈
{
0
,
1
}
∣
C
h
∣
C^h=(c_1,c_2,...)\in \{0,1\}^{|C^h|}
Ch=(c1,c2,...)∈{0,1}∣Ch∣表示第
h
h
h层的标签。待分类的文档可以表示为:
每一个文档都会被分配一个层级的标签。
Loosely Coupled Graph Convolutional Neural Networks
构造图的一个自然思想是,根据文档节点和单词节点的隶属关系、文档节点和类别节点之间的对应关系以及单词节点和类别节点之间的对应关系,构建一个包含所有信息的大型图。但是,将文档、单词、标签通过一个图来表示,由于边的数量太多从而不利于特征的学习并且很容易造成过平滑。因此,本文提出了LCGCN,它由一个单独的核心图和一个文档图组成,核心图包含单词和类别,文档图包含文档和单词。核心图用于提取单词和类别的嵌入,文档-单词图用于捕获文档和单词之间的关系。
核心图表示为
M
C
o
r
e
M_{Core}
MCore,它包含了单词节点以及标签类别,因此包含三种不同类型的边:word-word, category-word, and category-category。单词之间的边可以很容易地使用PMI进行计算,类别和单词之间的权重可以通过如下方式计算:
p
(
j
∣
i
)
p(j|i)
p(j∣i)表示单词
j
j
j与
类
别
i
类别i
类别i出现的概率,
p
(
j
)
p(j)
p(j)则表示单词在预料中出现的总体概率。至于类别间的权重,是根据训练数据中类别的共现来计算的。
之后,根据文档节点与单词节点之间的依赖关系构造文档-单词图(图中的
M
W
&
D
M_{W\&D}
MW&D)。文档节点和单词节点之间的权重计算为术语频率逆文档频率(term frequency-inverse document frequency, TF-IDF)。
之后,单词和类别的嵌入很容易通过
M
C
o
r
e
M_{Core}
MCore进行学习:
H
(
0
)
H^{(0)}
H(0)由预训练的Glove获得。然后,在得到了单词的表示之后,可以通过聚合得到文档的表示:
其中
E
d
o
c
∈
R
M
×
d
E_{doc}\in R^{M×d}
Edoc∈RM×d。通过叠加多个LCGCN层,可以合并高阶邻域信息以获得高质量的表示。
Category Correlations
相关性水平和垂直两类。
Horizontal Category Correlations
在每个类别层次结构级别上,一个给定的文档可能与多个类别相关联,因此水平的相关性可以通过如下方式计算:
产出一个相关性矩阵
S
h
∈
R
∣
C
h
∣
×
∣
C
h
∣
S^h\in R^{|C^h|×|C^h|}
Sh∈R∣Ch∣×∣Ch∣,
λ
s
h
\lambda_s^h
λsh是一个参数,表示水平相关性的权重。使用相关性矩阵对标签进行增强:
Vertical Category Correlations
之后是考虑上一层的标签。假设
y
^
h
\hat{y}^h
y^h是上一层的标签预测结果,可以利用
y
^
h
\hat{y}^h
y^h对所有类别在第
h
h
h层次上的表示进行积分:
得到当前层类别的表示。之后,整合文档嵌入和类别信息:
Loss Function
预测框架由每个层次的一系列局部分类器和整个层次结构的一个全局分类器组成,因此损失函数也分为局部损失和全局损失。局部概率预测为:
全局的文档表示是每一层的局部表示的聚合:
之后全局的概率预测为:
最终将局部和全局整合得到新的分布
P
F
P_F
PF:
损失函数则是所有聚合和全局的交叉熵损失:
Experiments
数据集
实验结果,其中HVHMC-NEG表示加入了负采样。
消融实验,不同组件的作用:
可视化分析:
如图4所示,热图中反映了一些相关性。例如,数学在语义上比其他类别更接近cs。