论文链接: https://arxiv.org/abs/2002.03350
论文代码: https://github.com/ToneLi/KASM-Short-text-classification
一、 abstract
1.subarea: 短文本分类问题
短文本分类广泛用于舆论分析,情感分析,人机对话等任务
2.problem:
处理这类问题所存在的困难在于单词的多义性和数据稀疏性
3.method:KASM模型
本文提出了KASM模型来解决上述问题(融合了知识图谱和深度神经网络)
- 知识图谱:丰富短文本的语义表示(包括self-entity和parents-entity具体见下)
- 深度神经网络:利用CNN提取短文本和标签表示之间在字面上的单词交互作用。
4.five datasets:MR, TREC, SST-1, SST-2, AG New
二、introduction
短文本分类的现有工作主要分为两类:显式表示,隐式表示。
1.显式表示:短文本首先进行细分,POS标记和句法分析,然后通过多方面进行文本特征提取,例如TF-IDF,依赖性分析和KG提取。
2.隐式表示:隐式表示模型在基于深度神经网络的上下文和单词中可以很好的捕获更丰富的语义信息。但是没有结合知识图谱,例如Warrior在NBA中得了冠军,Warrior在隐式表示模型中只有单一的意思”勇士“,并不能代表是一个篮球队。
因此本文结合了显示表示和隐式表示,但依然存在以下两个问题需要解决
1. 单词权重赋值划分
解决方法:
注意机制主要用于获取不同向量的权重,CNN擅长提取变异特征中的位置并处理空间相关数据(注意力机制可参考Attention is all you need17年论文)
使用self-entity attention和parent-entity attention这两中Attention为实体分配不同的权重。
2. 需要考虑短文本及其标签之间的交互信息(解释见定义5)
解决方法:
我们基于CNN构造一个相似度矩阵,该矩阵检测短文本中的单词与标签表示中的单词之间的交互信息,使用CNN上的卷积层获得它们之间的匹配的联系。
三、定义解释:
1.KG(知识图谱):
知识图谱是一个语义网络,其中的实体及其关系由节点和边表示。
2.KGE(knowledge graphics embedding):
它将KG中的每个实体和关系编码为连续的低维向量空间。大体分为两大类:基于翻译模型,例如TransE;语义匹配模型,例如RESCAL,DisMult和HolE 。
本文选用TransE模型,使用OpenKE提供的工具获得d1维图嵌入矩阵CE,d1 = 100。
原因:1) 具有几何解释,可以解释每个三元组中的关系(头部,关系,尾部)
2) 容易训练
3) 在Wikidata中,有54020000个三元组,TransE在此规模数据集上的训练非常有效。
3.Entity linking:
实体链接是一项确认实体身份的任务 ,通过Wikidat数据,作者开发了一个将短文本链接到KG的工具Searcher,该工具只能用于获取有关短文本的相关概念。
- 例如,短文本E: Eating a poisonous pear is good for Alice.经过实体链接得到E的concepts 是{poisonous,pear, alice}
4.Symbolic method:
它用于获取有关文本的实体,每个实体的标识都是一个。在图一中,通过检索KG,有关概念“apple”的self-entity为{Q312,Q26944932,Q4781117等}。此外,我们通过关系P31获得其parent-entity{Q101352,Q1420,Q4830453等}。
5.Label representation:
我们将短文本及其标签之间的交互信息引入文本的语义表示中。
通常,标签是符号,例如HUM和TEC。从字面上提取标签信息很困难,这些标签也有多义现象。作者扩展了这些标签并通过手册阐明了它们的真实含义,然后使用存储在Wikidata中的标签描述(表示形式)来描述其信息。
- 例如(label:HUM)= ⇒(标签扩展:人类)=⇒(HUM的表示:智人的统称,是智人属的独特现存物种)
6.Concept and entity
如图,为了分析一词多义性,有self-entity和parent-entity; 绿色是self-entity,蓝色代表parent-entity(哪一个类型),例如apple是一个抽象Concept,Q26944932 是 a family name, Q4830453 是 Apple Computer Inc,其表示不同的含义,但都是apple这个单词。.
四、KASM模型
模型由四部分组成:
1. 图中用黄色框E表示选择正确实体的方法。
选择实体时使用的是简单余弦定理,而未用Attention mechanism,因为有些词只有一个意思,Attention mechanism 赋予该词的权值更小,导致错误结果。
首先,我们可以通过检索Wikidata来获得概念的实体描述Di(i是每个concept的实体数)。其次,可以通过Google的Dli维预训练矢量,d0 = 300来捕获短文本向量表示S和Di中的Dli向量表示,具体操作如下:
C表示余弦函数,T对应的实体是正确的实体,在下图中,它是Q89。同样,我们可以得到句子的 self-entity set C和parent-entity set F。
2. 图中PART1用于挖掘词的潜在语义信息的词编码方法。
目的: 得到对应的每个单词对标签的关注程度不同,关注程度越大,单词的重要性就越大。
该模块的功能是在给定具有长度为l的短文本s的情况下生成单词特征表示A1。
(word embedding使用的是Google的d0维预训练向量来获得的)
然后,使用Bi-GRU来获取隐藏表示
H
0
:
l
H_{0:l}
H0:l= {h0; …; hl}(每个hl表示时间l处的双向信息)。
句子的单词特征表示A1计算如下:
u
j
u_j
uj是通过tanh函数得到
h
j
h_j
hj的隐藏表示形式,然后计算单词的权重
η
j
η_j
ηj,通过求和单词的权重获得A1。
W
w
e
∗
o
W_w^{e * o}
Wwe∗o(e是H的隐藏大小,o是单词级别的注意层的大小),
U
w
o
∗
1
U_w^{ o*1}
Uwo∗1和
V
o
V_o
Vo是随机矩阵,它们在训练过程中参与学习。
3. 图中PART2用于获取文本的精确语义的知识(实体)编码模型。
我们将实体信息视为一种知识,当给出简短文本时,这可以帮助确定类标签。
我们使用实体链接,符号方法和模型E来获取 self-entity set和parent-entity set,得到一个大小为m的self-entity集C,表示为{c1,…,cm},获得的其隐藏层向量表示E = {e1,…,em},em是第m个self-entity向量。同样,parent-entity集F = {f1,…,fn},其隐藏层向量表示为K = {k1,…,kn}。在C和F中,每个实体对文本表示都有着不同影响。
接下来,使用了两个注意力机制去关注重要的实体
- self-entity attention
通过下面公式来衡量短文本中self-entity的重要性:
在此,
α
j
α_j
αj表示C中每个实体的权重,较大的
α
j
α_j
αj表示第j个self-entity在语义级别上与短文本更相似。
W
s
i
∗
e
W _s^{i ∗ e}
Wsi∗e(i是E的隐藏向量大小,e是self-entity注意层的大小),
U
s
i
e
∗
1
U_s^{ie*1}
Usie∗1是权重矩阵,在训练期间需要学习,
b
s
e
b_s^e
bse是偏移量
- parent-entity attention
注意: 每个self-entity只有一个parent-entity,因此无法确定其权重。
例如我们不能说自我实体b的权重最大,它的父母实体q的权重也最大。
因此在self-entity attention的基础上提出了parent-entity attention,公式如下:
在此,
β
j
β_j
βj表示F中每个父实体的权重,较大的
β
j
β_j
βj表示第j个父实体在语义级别上与短文本更相似。
W
t
m
∗
n
W ^{m * n}_ t
Wtm∗n(m是K的隐藏大小,n是父实体注意层的大小),
U
t
n
∗
1
U_t^{n * 1}
Utn∗1是权重矩阵,在训练期间需要学习,
b
t
n
b_t^n
btn是偏移量。
4. 图中PART3为交互信息检测模型,用于捕获短文本及其标签表示之间的连接信息
当我们考虑文字层面的交互信息时,发现尽管有些文本表达了相同的含义,但它们的单词却具有不同的顺序。
例如Where is Barack Obama’s hometown? 和 Where was president Obama born?
这些文本具有不同的表达方式(顺序或同义词),但它们都引用一个主题-位置。
因此,作者基于CNN模型构造了相似矩阵,其卷积核可以提取这些交互信息并解决上述问题。
- 构造相似度矩阵:
短文本词嵌入S = {
s
1
,
.
.
.
,
s
g
s_1,...,s_g
s1,...,sg},
s
g
s_g
sg表示第g个词向量,
x
l
x_l
xl是定义标签的单词的向量。通过公式,我们可以获得句子和标签表示之间的相似度矩阵。
- CNN模型
卷积运算可以忽略单词顺序或不同的匹配模式。
第k个卷积核
W
k
∈
R
h
l
W ^k∈R^{hl}
Wk∈Rhl,它扫描整个相似矩阵以产生新的特征
P
k
P^k
Pk。h表示内核的高度,通常表示扫描窗口中的h个词。
l
l
l指词嵌入矩阵维度。
φ
φ
φ是激活函数ReLU。卷积核应用于相似矩阵,其步长为1。
因此,得到新的特征集合:
Max pooling获取重要的特征:
全连接层:
这里o是偏移量,φ是激活函数,
W
i
W_i
Wi是全连接层的权重,z是最大池化层的输出
训练损失函数
通过四个计算,得到四个特征{A1,A2,A3,A4},其中A1表示单词特征,A2和A3表示实体特征,A4表示交互信息。
之后,我们使用softmax和交叉熵作为我们的训练损失,所有参数都需要从一个集合
δ
δ
δ中进行优化。d是句子数,
y
d
′
y_d'
yd′是目标标签。M是权重矩阵
主要方法总结:
1.word feature representation(GRU+biRNN+Attention)
2.Entity feature representation(GRU+biRNN+Attention)
3.Interaction information(Similarity+CNN)
四、experiment
使用了9个最最新的方法与作者模型比较结果:
NII:没有interaction information、simple:没有parent information and interaction information、没有attention 这几种情况下的性能效果。