EMNLP2021.
目录
Method
本文提出了一个基于图神经网络的短文本分类框架,用于捕捉短文本之间的稀疏语义关系。具体来说,提出了两种不同的构图方式:word-level component graphs以及short document graph。前者描述了词、词性标签和实体之间的交互作用,该组件图易于提取,并携带额外的语义和句法信息以弥补上下文信息的不足;后者是动态学习和优化的,以编码短文档之间的相似性,从而使更有效的标签传播之间的连接相似的短文档。
词级别的图一共有三种类型
τ
∈
{
w
,
p
,
e
}
\tau \in \{w,p,e\}
τ∈{w,p,e}。
w
w
w表示一单词之间的关系图,
p
p
p使用POS标记短文中每个词的名词、动词等句法角色,有助于区分歧义词,
e
e
e对应于能在辅助知识库中找到的词,以便补充知识。文档图则是自动学习的,自适应地为相似的文档之间添加边。
Word-Level Component Graphs
Node Embedding Learning
在给定相应的word图之后,本文使用简单的GCN进行节点特征学习:
Graph Construction
Word Graph
G
w
G_w
Gw。使用互信息进行构建:
其中
v
w
i
v_w^i
vwi表示单词节点,当互信息大于0说明单词之间存在正向关系,因此添加边。之后,节点初始化为一个one-hot向量
x
w
i
x_w^i
xwi,然后使用公式(1)进行学习,得到
H
w
H_w
Hw。
POS Tag Graph
G
p
G_p
Gp。同
G
w
G_w
Gw类似,先使用NLTK对数据进行词性标注,然后以词性为节点
V
p
V_p
Vp,通过计算词性之间的互信息构建图:
Entity Graph
G
e
G_e
Ge。通过链接到外部知识库NELL进行实体的查找,一般来说一句话通常只包含一个实体,因此无法计算实体之间的互信息。因此,本文对NELL知识图谱首先做了一个TranE的嵌入,然后计算实体之间的余弦相似性
c
(
v
e
i
,
v
e
j
)
c(v_e^i,v_e^j)
c(vei,vej),并构建实体之间的边:
Short Document Graph
文档图使用 G s G_s Gs进行表示,旨在捕捉文档级别的相似度并进行标签传播学习。 G s G_s Gs节点的特征可以由word-level图的层次池化得到。
Hierarchical Pooling
给定由公式(1)计算的
H
τ
∈
R
∣
V
τ
∣
×
d
H_\tau \in R^{|V_\tau|×d}
Hτ∈R∣Vτ∣×d,使用如下方式进行池化:
这里,
u
(
x
)
=
x
/
∣
∣
x
∣
∣
2
u(x)=x/||x||_2
u(x)=x/∣∣x∣∣2,用于对特征的normalization,然后
s
τ
s_\tau
sτ应该是一个
∣
D
∣
×
∣
V
τ
∣
|D|×|V_\tau|
∣D∣×∣Vτ∣的矩阵,用于将单词特征聚合到文档特征上。
s
τ
i
s_\tau^i
sτi的生成方式如下:
- 当
τ
=
w
,
p
\tau=w, p
τ=w,p,使用
v
τ
v_\tau
vτ以及文档
v
s
v_s
vs之间的TF-IDF构建边:
而后,需要normalize s τ s_\tau sτ:
- 当 τ = e \tau=e τ=e,则如果实体 v e j v_e^j vej在文档 v s i v_s^i vsi中,那就是1,否则边值就是0。同样,也需要进行normalize。
之后,三种不同类型词图对应的特征进行拼接得到相应文档的特征表示:
Dynamic Graph Learning
之后,采用文档特征之间的相似度去学习邻接矩阵:
最终,文档节点的标签概率分布由另外两层GCN学习得到:
损失函数是简单的交叉熵:
Experiments
数据集:
实验结果:
参数数量:
不同图组件的消融实验:
一些参数分析: