【AAAI-2019】STCKA-Deep Short Text Classification with Knowledge Powered Attention(基于知识驱动注意力的深度短文本分类)


论文链接: Deep Short Text Classification with Knowledge Powered Attention
来源:AAAI-19
作者:复旦大学等
代码
本篇文章可以看做在KPCNN的基础上所作改进,在KPCNN的基础上加入了注意力机制

摘要

短文本分类是自然语言处理(NLP)的重要任务之一。与段落或文档不同,短文本由于没有足够的上下文信息而更加模糊,这给分类带来了很大的挑战。本文从外部知识源中检索知识,增强短文本的语义表示。我们将概念信息作为一种知识,并将其整合到深度神经网络中。为了评价知识的重要性,引入注意力机制,提出了基于知识驱动注意力的深度短文本分类方法(STCKA)。我们利用概念对短文本(C-ST)和概念对概念集(C-CS)的注意,从两个方面获取概念的权重。在概念信息的帮助下对短文本进行分类。与传统的方法不同,我们的模型就像一个人,具有基于观察(即为机器训练数据)做出决策的内在能力,并且更关注重要的知识。我们还针对不同的任务在四个公共数据集上进行了大量的实验。实验结果和案例研究表明,我们的模型优于最先进的方法,证明了知识驱动注意力的有效性。

引言

短文本分类是理解短文本的重要方法之一,在包括情感分析(Wang et al. 2014)、对话系统(Lee and Dernoncourt 2016)和用户意图理解(Hu et al. 2009)等广泛应用中都很有用。与段落或文档相比,短文本由于没有足够的上下文信息而具有更大的模糊性,这给短文本的分类提出了很大的挑战。现有方法(Gabrilovich和Markovitch 2007;Wang et al. 2014;对于短文本的分类主要分为两大类:显式表征和隐式表征(Wang and Wang 2016)。
对于显式表示,将短文本表示为稀疏向量,其中每个维为显式特征,对应短文本的句法信息,包括n-gram、词性标注和句法解析。研究人员从知识库和依赖分析的结果等多个方面开发有效的特征。对人类来说显式模型是可解释的,容易理解的。然而,显式表示往往忽略了短文本的上下文,无法捕捉深层语义信息。
在隐式表示方面,短文本通常映射到隐式空间,并表示为密集向量(Mikolov et al. 2013)。基于深度神经网络的隐式模型擅长于获取短文本中的语法和语义信息。然而,它忽略了知识库(KBs)中存在的isA、isPropertyOf等重要语义关系。这些信息对理解短文很有帮助,尤其是在处理以前看不到的单词时。例如,给一篇短文S1:“Jay grew up in Taiwan”,隐式模式可能会把Jay当作一个新词,不能捕捉到周杰伦是歌手这一点,而这有利于将短文归入类别“娱乐”。
本文将短文本的显式和隐式表示整合到一个统一的深度神经网络模型中。在YAGO (Suchanek, Kasneci, and Weikum 2008)和Freebase (Bollacker et al. 2008)等显性知识库(KBs)的帮助下,我们丰富了短文本的语义表示。这允许模型从外部知识源检索知识,这些知识源不是在短文中明确声明的,而是与分类相关的。如S1中的例子所示,概念信息作为一种知识有助于分类。因此,我们利用isA关系,通过概念化将每个短文本与知识库中的相关概念联系起来。然后我们将概念信息作为先验知识整合到深度神经网络中。
虽然简单地将概念信息整合到深度神经网络中似乎是一种直观的做法,但仍然存在两个主要问题。首先,在概念化短文本时,由于实体的模糊性或KBs中的噪声,容易引入一些不恰当的概念。例如,在句子S2“”其次,需要考虑概念的粒度和概念的相对重要性。例如,在句子S3“Bill Gates is one of the co-founders of Microsoft”中,我们从KB中检索到Bill Gates的概念person和entrepreneur。虽然它们都是正确的概念,但entrepreneur显然比person更具体,在这种情况下它也该被赋予更大的权重。之前的工作(Gabrilovich和Markovitch 2007;Wang et al. 2017)利用web规模的KBs来丰富短文本表示,但没有仔细解决这两个问题。
为了解决这两个问题,我们引入注意力机制,提出了基于知识驱动的注意力深度短文本分类(STCKA)。在机器翻译(Bahdanau, Cho, and Bengio 2015)、抽象摘要(Zeng et al. 2016)和问答(Hao et al. 2017)等许多自然语言处理应用中,注意机力制被广泛用于获取向量的权值。对于第一个问题,我们使用概念指向短文本(Concept towards Short Text, C-ST)注意力来衡量短文本与其对应概念之间的语义相似度。我们的模型给S2中的概念手机分配了更大的权重,因为它在语义上比概念水果更类似于短文本。对于第二个问题,我们使用Concept towards Concept Set (C-CS) attention来探索每个概念相对于整个概念集的重要性。 我们的模型在S3中赋予概念企业家更大的权重,这对特定的分类任务更具区别性。
我们引入了一个软切换,将两个注意权重组合为一个,产生每个概念的最终注意权重,并通过我们的模型在不同的数据集上自适应学习。然后我们计算概念向量的加权和来产生概念表示。此外,我们充分利用短文本的字级和词级特征,利用self-attention生成短文本表示。最后,根据短文本及其概念的表示对短文本进行分类。
本文贡献:

  • 我们提出了基于知识驱动的深度短文本分类方法。据我们所知,这是第一个结合KBs中的先验知识来丰富短文本语义信息的注意模型。
  • 我们引入了两种注意机制(C-ST和C-CS注意),从两个方面衡量每个概念的重要性,并通过软切换将它们结合起来,自适应地获取概念的权重。
  • 我们针对不同的任务在四个数据集上进行了大量的实验。结果表明,我们的模型优于最先进的方法。

相关工作

短文本分类

注意力机制

模型

在详细介绍模型之前,我们先简要概述一下模型。网络的输入是一个短文本s,它是一个单词序列。网络的输出是类别标签的概率分布。我们用 p ( y ∣ s , φ ) p(y|s, φ) p(ysφ)表示一个短文本是y类的概率,其中φ是网络中的参数。我们的模型包含四个模块。知识检索模块从KBs中检索与短文本相关的概念信息。输入嵌入模块利用短文本的字级和词级特征生成单词和概念的表示。短文本编码模块通过自我注意对短文本进行编码,产生短文本表示q。知识编码模块对概念向量采用两种注意机制,得到概念表示p。接下来,我们将p和q连接起来,将短文本和概念信息融合到一个完全连接的层中。最后,我们使用输出层来获取每个类标签的概率。在这里插入图片描述

知识检索

本模块的目标是从KBs检索相关知识。

输入嵌入

短文本编码

知识编码

训练

实验

数据集

我们在四个数据集上进行实验,如表1所示。
第一个是来自NLPCC2013的中文微博情感分析数据集(Zhou et al. 2017)。微博中存在七种情绪,如愤怒、厌恶、恐惧等。第二个是来自NLPCC2014的product review3dataset (Zhou, Xu, and Gui 2017)。每个评论的极性都是二元的,不是积极的就是消极的。第三个是来自NLPCC2017的中文新闻标题4数据集,包含18类(如娱乐、游戏、食品)(邱、巩、黄2017)。
上述三个数据集的平均单词长度都在12以上。为了测试我们的模型是否适用于更短的文本,我们构建了平均单词长度为7.99的主题数据集。主题数据集来自搜狗新闻(Fu et al. 2015),每条新闻包含一个标题、文档和主题(如军事、政治)。标题作为短文本,主题作为标签。此外,我们还在表1中报告了每个数据集的实体和概念的平均数量。所有四个数据集都通过jieba工具进行标记化5。
在这里插入图片描述

比较模型

  • CNN:该模型是文本分类的经典基准。它利用了基于预先训练的词嵌入的CNN。
  • R-CNN:该方法使用递归卷积神经网络进行文本分类。RNN用于上下文信息的捕获,CNN用于文本关键组件的捕获。
  • CharCNN:该方法使用只有字符级特征的CNN作为输入。
  • BiLSTM-MP:本文提出了一种用于连续短文本分类的模型。它在每个方向上使用LSTM,并在所有LSTM隐藏状态上使用max-pooling来获得句子表示,然后使用多层感知器输出分类结果。
  • BiLSTM- SA (Lin et al. 2017):该方法使用BiLSTM和source2token自我注意将句子编码为固定大小的表示,用于分类
  • KPCNN:该模型是目前最先进的短文本分类方法。基于短文本和概念的单词和字符级别信息,利用CNN进行分类。

结果

在这里插入图片描述
我们的模型优于传统的深度神经网络(DNNs),包括CNN、R-CNN、CharCNN、BILSTM-MP、BILSTM-SA,没有使用知识库。
这主要是因为我们的模型借助KBs来丰富短文本的信息。具体来说,我们将KBs中的先验知识作为显式特征合并到DNNs中,这些特征对shorttextclassification有很大的贡献。与传统的dnn相比,我们的模型更像是一个具有内在能力的人,基于观察(即:(如机器训练数据)以及现有知识。此外,我们的模型也比KPCNN表现得更好,因为我们的模型由于注意机制,能够对重要的知识给予更多的注意。我们使用C-ST和C-CS注意从两个方面来衡量知识的重要性,并自适应地为不同短文本的每个知识分配一个合适的权重。

结论

本文提出了基于知识驱动的深度短文本分类方法。我们在KBs中整合概念信息来增强短文本的表示。为了测量每个概念的重要性,我们使用两种注意机制来自动获取用于生成概念表征的概念的权重。我们根据文本及其相关概念对短文本进行分类。最后,我们在4个不同任务的数据集上验证了我们的模型的有效性,结果表明它优于目前最先进的方法。
在未来,我们将把财产价值信息融入深度神经网络,进一步提高短文本分类的性能。我们发现,由于知识库的不完整性,一些在短文本中提到的实体缺乏概念。除了概念信息外,实体属性及其值也可以作为显式特征注入到深层神经网络中。例如,实体航空母舰具有属性-价值对域-军事,这是一种有效的分类特征

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值