【2020】基于由图卷积网络和BERT生成的文档和单词表示的短文本分类

最新推荐文章于 2022-10-05 09:32:21 发布

林若漫空

最新推荐文章于 2022-10-05 09:32:21 发布

阅读量2.2k

点赞数 1

分类专栏： GNN 短文本分类

本文链接：https://blog.csdn.net/qq_36291847/article/details/115066045

版权

短文本分类图卷积网络 BERT 主题模型深度学习

关键词由CSDN通过智能技术生成

GNN 同时被 2 个专栏收录

44 篇文章 34 订阅

订阅专栏

短文本分类

20 篇文章 9 订阅

订阅专栏

文章目录

摘要
1 引言
2 相关工作
3 框架概述
4 实验设置
5 实验结果
- 5.1 主题模型对分类性能的影响
- 5.2 主题数目对分类性能的影响
6 讨论及未来工作

论文链接： Document and Word Representations Generated by Graph Convolutional Network and BERT for short text classification
作者：湖南大学、广东工业大学的等人
来源：ECAI2020

摘要

在许多研究中，图卷积神经网络被用于解决不同的自然语言处理问题。然而，利用图卷积网络进行文本分类的研究很少，尤其是对短文本分类的研究较少。本文首先建立短文本语料库的特殊文本图，然后开发短文本图卷积网络(STGCN)。具体来说，采用不同的短文本主题模型，并基于单词共现、文档单词关系和文本主题信息，开发短文本短文本图。将STGCN生成的单词和句子表示作为分类特征。此外，利用BERTs隐含层获得的预先训练好的词向量，大大提高了模型的分类效果。实验结果表明，在多个短文本数据集上，我们的模型优于目前最先进的模型。

1 引言

短文本通常具有较短的长度，一般不超过140个字符。短文本分类广泛应用于问答系统、对话系统、情感分析系统等系统中，是自然语言处理的重要任务之一。许多不同的深度学习模型，如卷积神经网络(CNN)[15]和循环神经网络(RNN)[13]，已被用于短文本分类。与支持向量机[27]等传统方法相比，基于深度学习的文本分类模型取得了更好的结果，并取得了显著的改进。近年来，一个新的研究方向被称为图神经网络[4,2]，特别是图卷积神经网络[17]，引起了广泛的关注。
图卷积神经网络已应用于自然语言处理任务，如语义角色标注[21]、关系分类[18]和机器翻译[1]。Yaoand Mao[31]提出了一种新的文本图卷积神经网络，该网络基于词的共现和文档词的关系，构建一个语料库的单个文本图，然后学习一个语料库的文本图卷积网络(TextGCN)。
但上述工作均未将图卷积网络应用于短文本分类。此外，TextGCN在短文本数据集，如MR上的表现不如CNN或RNN(详见4.1节)。
本文提出了一种基于深度学习的短文本分类方法。具体来说，接着TextGCN，我们构建了短文本语料库的短文本图。然后，由于短文本的短长度和稀疏特征，我们使用主题模型来提取短文本的主题信息，并利用主题信息来帮助构建短文本图。即TextGCN忽略了在短文本分类中非常有用的词节点表示和词序中的语义信息，在softmax分类器的最终输入中，只使用文档节点。相反，我们将经过图形卷积网络(GCN)训练的单词和文档节点同时输入到双向长短期记忆(BiLSTM)或其他分类模型中，对短文本进行进一步分类。此外,我们使用向量受到伯特的隐层可以表示上下文敏感的词表示,我们发现使用的组合代表了一个短GCN pre-trained词向量通过伯特的隐层[9]]可以极大地改善我们的模型的性能。
本文贡献：

提出了一种基于图神经网络的短文本分类方法。在多个不同句子长度的数据集上进行了实验验证，发现该模型在所有数据集上都达到了最先进的效果。
首次利用主题模型获取短文本的全局主题信息，进一步利用主题信息辅助短文本图的构建，解决短文本的稀疏特征问题。
为了更有效的利用由short-text GCN生成的词和句子表示,我们把它们输入BiLSTM分类器,研究发现，添加由bert生成的词向量大大提高了短文本分类的性能。

2 相关工作

近年来，许多研究者将深度学习[10]应用于文本分类。具体来说，Kim[15]使用CNN进行文本分类。该架构是cnn在计算机视觉中的直接应用，但带有一维卷积。在[33,7]中，作者设计了字符级cnn，并取得了很好的结果。在，BILSTM被用来学习文本表示。此外，为了增加深度学习模型的表示灵活性，Yang[30]将注意机制作为文本分类模型的组成部分。
为了克服短文本的特征稀疏性问题，[24,6]将LDA[3]学习的预先训练的主题混合作为特征的一部分，以缓解数据稀疏性问题。在[32]中，作者在一种记忆机制中对主题表示进行编码，其中主题与文本分类以端到端的方式共同诱导。我们的模型与以往工作的不同之处在于，我们利用主题模型提取的主题信息、单词共现、文档单词关系构建短文本图，然后使用图卷积网络对短文本图进行学习和训练。
在[17]中，引入了一种被称为图卷积网络(GCNs)的图神经网络，并在一些基准图数据集上取得了最先进的分类结果。在语义角色标注[21]、关系分类[18]和机器翻译[1]等自然语言处理任务中，也探索了GCN。用于文本分类的GCN可以分为两类。在第一组[12,8,17,34]中，将一篇文档或一句话视为词节点图，使用非常规可用的文献引文关系来构建该图。在第二组[31]中，将文档和单词视为节点，不需要文档间的关系。在本研究中，将文档和单词视为节点。但与以往的工作不同的是，我们的工作针对的是短文本分类中短文本的稀疏特征问题，我们的模型充分利用了图卷积网络和BERT生成的表示对短文本进行分类。

3 框架概述

本文将基于图卷积网络的短文本分类过程分为两步。第一步是针对短文本语料库建立专门的文本图，并利用短文本图学习和训练短文本图卷积网络。提出的short-text GCN如图1所示。第二步，将short-text GCN生成的词和文档表示输入到BiLSTM分类器中，获得文本类别。此外，还在模型中加入BERT生成的词表示，提高了模型的分类性能。如图2所示。
在这里插入图片描述

3.1 针对短文本的主题模型

传统主题模型LDA和PLSA，在短文本分类上表现不好。本文采用BTM主题模型

3.2 短文本图卷积网络

为了有效地对短文本进行分类，我们构造了一个特殊的短文本图。短文本图中的节点由文档、惟一的单词和主题组成。图之间的边缘节点构建基于这个词出现在文档(documents-word边缘),在整个语料库词同现(word-word边缘),documents-to-topic重量(documents-topic边缘)学会了主题模型,和topic-word的重量(word-topic边缘)学会了主题模型。具体来说,我们使用术语frequency-inverse文档频率(TF-IDF)这个词频率表示文档中单词出现的次数,和逆文档频率的对数比例逆分数包含这个词的文档的数量作为文档节点之间的边的权重和节点。我们使用点互信息(PMI)来计算两个词节点之间的权重，PMI是一种常用的词关联度量方法。
另外，为了解决短文本的稀疏特征问题，将主题模型提取的主题作为短文本图中的节点。我们使用主题模型学习的文档-主题权重作为文档节点和主题节点之间边缘的权重。同样，通过主题模型学习到的单词-主题权重被用作单词节点和主题节点之间的边缘权重。形式化地定义节点i与节点j之间的边的权值为: 在这里插入图片描述

3.3 BERT表示

为了进一步提高模型的性能，我们应用了由最先进的模型生成的词向量，变压器(BERT)[9]的双向编码器表示。具体来说，使用预先训练的BERT模型预测文本类别，但不使用BERT结果作为最终的文本分类结果。BERT隐层得到的向量s0可以表示上下文敏感的词嵌入。实验结果表明，将BERT生成的词向量与短文本GCN生成的表示相结合，可以获得比单独使用BERT或短文本GCN更好的分类性能。

3.4 分类器

在这里插入图片描述

4 实验设置

4.1 数据集

4.2 试验方法

4.3 模型设置

5 实验结果

我们的模型在不同数据集上的实验结果如表2所示。根据实验结果，我们可以得出以下结论。
该模型能够有效地对短文本进行分类。
从表2可以看出，与其他模型相比，我们的模型在MR、Biomedical、StackOverflow和Weibo数据集上的分类准确率有了明显的提高。STGCN在R8数据集上的表现不如在MR数据集上，原因是R8数据集的文本长度相对较长，主题信息对文本分类的帮助不是很大。
文本越短，性能提升越明显。
短文本的主题信息有助于构建短文本图。
充分利用文档节点和词节点表示可以提高文本分类结果。
加入预训练的BERTs词向量可以提高模型的性能。
在这里插入图片描述

5.1 主题模型对分类性能的影响

在实验中，我们尝试了几种主题模型从短文本中提取主题信息。本文利用研究最广泛的主题模型之一LDA[3]作为短文本的扩展特征，获取短文本的主题信息。随着神经网络的发展，对神经主题模型的研究也越来越多。神经主题模型不仅可以更好地建模文本，而且可以更好地嵌入到其他神经网络中，可以与神经网络模型一起很好地进行训练。在实验中，我们还采用神经主题模型(NTM)[22]和神经变分文档模型(NVDM)[5]来提取短文本的主题信息。

5.2 主题数目对分类性能的影响

6 讨论及未来工作

该文采用主题模型提取短文本主题信息，并通过单词共现和文档单词关系构造短文本主题图。同时，利用图卷积神经网络构造和训练短文本图。由GCN训练的词节点、文档节点和BERT隐层生成的向量一起输入到BiLSTM分类器中进行短文本分类。在实验中，我们的模型在不同的短文本数据集上取得了最先进的性能。实验结果表明，我们的短文本图能够有效地对短文本数据进行建模，将短文本GCN得到的表示与BERT隐层得到的预先训练好的词向量相结合，可以极大地提高我们模型的分类性能。
但是，我们的模型比在比较中使用的其他模型消耗更多的内存和更长的训练时间。在未来的工作中，我们将探索如何简化所提出的模型，同时达到相同的分类效果。