- EMNLP2019: Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification
- 论文链接
- 代码与数据
一. 介绍
Motivation
-
短文本通常是语义稀疏且模糊的,缺少上下文;
-
有标注的训练数据十分有限,因此,需要研究如何使用有限的标注数据和大量的无标注数据来解决问题
总的来说,需要提出一种模型,他能够捕捉到解决语义模糊问题的不同类型信息的重要性,并且降低噪声信息的权重来提高分类准确性;
Proposed Model
根据motivation, 本文提出了一种基于异质信息网络的模型,它能够通过不同图的信息传播,而充分利用有限的标注数据和大量的无标注数据来解决问题,具体如下:
-
首先,提出了异质信息网络结构(HIN)对短文本进行建模,它能够融入额外的信息(topic信息、enetity信息等)并捕捉文本和这些信息之间丰富的关系信息;
-
然后,提出了异质注意力图网络HGAT, 基于 dual-level attention对短文本进行编码;dual-level attention 能够捕捉不同邻居节点的重要性,降低噪声信息, 还能够捕捉不同类型节点的重要性;
Contributions
-
本文是第一份引入 HIN 对短文本进行建模并引入额外信息,并通过 HIN 来完成短文本的分类问题;
-
提出了 HGAT 完成短文本分类问题,并设计了 dual-level attention机制;
-
本文模型在6个数据集上取得了SOTA效果;
二. 相关工作
-
首先介绍了传统的和基于神经网络的文本分类任务,并且提出当前短文本分类任务存在缺少标注训练数据的问题;
-
然后介绍了半监督的文本分类,并且提出当前半监督文本分类都没有做到通过attention机制捕获重要信息
三. 模型
HIN for short Texts
-
目的: 为短文本融入额外的信息(topic,entities),并捕捉到文本之间和文本与额外信息元素间的关系,从而缓解短文本特征稀疏的问题;
-
本文中考虑的额外信息是标题(topics)和实体(entities);
-
节点集: short texts、topics、entities
- topics 通过LDA得到,目的在于丰富短文本的语义信息,
-
边集:
- topic和short text之间的边: 每个topic是通过关于words的概率分布表示,文本的topic被选定为对应概率最大的 P P P 个topic, 这些短文本和topics节点之间建立一条边;
- entity和short text之间的边: 识别出文档中的实体集合并通过实体链工具指将它们映射到Widipedia, 如果某篇文章包含某个实体,则在它们之间建立一条边;
- entities之间的边: 对实体通过词向量进行表示,如果两个实体的语义相似性超过了一定的阈值,则在它们之间建立一条边;
-
通过引入topics和entities及它们与short texts间的关系,使short texts的语义信息得到了丰富。
HGAT
异质图卷积(Heterogeneous Graph Convolution)
-
节点的表示
- short text: 通过文本的tf-idf值进行表示
- topics: 通过topic关于word的概率分布表示
- entity: 将entity包含单词的词向量与entity在Wikipedia中对应的描述文本的tf-idf值拼接作为entity的表示;
-
关于异质图卷积操作,一种方案是通过类似one-hot的方法进行表示;例如,节点 n n n是short text, 它有自身的基于tf-idf的表示,同时认为它作为topic和eneity的表示是零向量, 然后将它对应的三种表示拼接后通过GCN进行卷积;但这样存在的问题是,不同类型节点的类型信息会被丢失,导致性能受到影响
-
因此作者定义了如下的异质图卷积操作:
其中 τ \tau τ 表示节点种类(text,entity,topic);
Dual-level Attention
- Type-Level Attention
- 目的: 学习不同类型邻接节点的权重
- 首先,计算出当前类别的一个向量:
h τ = ∑ τ ∈ T A ~ τ ⋅ H τ ( l ) ⋅ W τ ( l ) h_{\tau} = \sum_{{\tau} \in \mathcal{T}} \tilde{A}_{\tau} \cdot H_{\tau}^{(l)} \cdot W_{\tau}^{(l)} hτ=τ∈T∑A~τ⋅Hτ(l)⋅Wτ(l) - 然后根据类型向量和当前节点向量计算当前类型的attn值:
a τ = σ ( μ τ T ⋅ [ h v ∣ ∣ h τ ] ) a_{\tau} = {\sigma}({\mu}_{\tau}^{T} \cdot [h_v ||h_{\tau}]) aτ=σ(μτT⋅[hv∣∣hτ]) - 得到各个类的attn值后,通过softmax进行归一化:
Node-level Attention
- 目的: 捕捉不同节点的重要性,降低噪声节点的权重
- 假设当前研究类型为 τ \tau τ 的节点 v v v, v v v 有一个类型为 τ ′ {\tau}' τ′的邻居节点 v ′ v' v′, 则 v ′ v' v′的重要性权重是:
- 通过softmax对
v
v
v 的所有邻居节点权重进行归一化:
- 最后,根据节点类型把节点及其对应邻接点的attn权重构成一个矩阵
β
τ
\beta_{\tau}
βτ,
β
i
j
\beta_{ij}
βij 表示
v
i
v_i
vi 与
v
j
v_j
vj 之间的attn权值,根据如下公式进行一步层间的更新:
分类
经过 L L L 层的 HGAT 处理后,得到每个节点的表示,输入分类层对文本进行分类。
四. 试验
基础信息介绍
首先介绍了实验数据集、baselines模型和实验参数设置,然后介绍实验效果时,从HAT和dual-level attention两个角度分析了取得良好实验效果的原因。
消融实验
-
Ablation Experiments:
-
GCN-HIN: 用前文所说的类似 one-hot 的向量拼接方式对节点进行表示,然后通过传统 GCN 模型进行节点的表示学习;
-
HGAT w/o ATT: 去掉 attn 模块,用公式2的操作进行卷积操作;
-
HGAT-Type: 本文的 HGAT 保留 type attention, 去掉 node attention;
-
HGAT-Node: 本文的 HGAT 保留 node attention, 去掉 type attention
-
-
实验分析:
- HGAT w/o ATT 的结果优于 GCN-HIN, 说明了 异质图卷积考虑到不同类型信息的重要性;
- HGAT-Type 和 HGAT-Node 的结果优于 HGAT w/o ATT, 说明了 attn机制的重要性;
- HGAT-Node 实验结果优于 HGAT-Type, 说明 节点attention是更加重要的。
Impact of labeled data
作者改变标注数据的数量并对实验结果进行了统计,得到如下结论:
-
标注数据的增加有助于实验结果的提高;
-
基于图的方法比非图结构方法取得了更好的效果,说明基于图的方法通过图上的信息传播更能够有效利用有限的标注数据
-
随着标注数据量的减少,本文的 HGAT 模型依旧取得了最好的效果,这说明HGAT能够有效利用短文本的标注数据
Parameter Analysis
这一模块研究了 topics 的数量 K K K 与赋予每篇文档topics的数量 P P P对实验结果的影响,并且认为 topics的数量应该与数据集相适应。
Case Study
这一模块通过一则例子分析了dual-level attention的作用,并通过例子说明了dual-level attentoin能够为文本分类捕获不同的信息,并降低噪声信息的权重。
了解更多论文分享信息,请关注公众号深度学习的知识小屋