【2021】基于多通道CNN与多头注意力机制的短文本情感分析

本文链接：https://blog.csdn.net/qq_36291847/article/details/115368130

文章目录

摘要
引言
相关工作
- *A情感分析*
情感分析模型
实验
结论和未来工作

Short Text Sentiment Analysis Based on Multi-Channel CNN With Multi-Head Attention Mechanism

摘要

由于短文本的文本特征有限，需要从多个角度挖掘短文本的特征，利用多种情感特征组合来学习隐藏的情感信息。提出了一种基于多通道卷积神经网络与多头注意机制的情感分析模型。该模型将单词特征与部分词性特征、位置特征和依赖语法特征分别组合成三个新的组合特征，输入到多通道卷积神经网络中，并集成了多头注意机制，以更充分地学习文本中的情感信息。最后，在两个中文短文本数据集上进行了实验。实验结果表明，与其他基准模型相比，MCNN-MA模型具有较高的分类精度和较低的训练时间成本。
关键词：情感分析，短文本，多通道，卷积神经网络，多头注意机制。

引言

文本情感分析是对具有情感色彩的主观文本[1]进行分析、加工、总结和判断的过程。它旨在挖掘文本信息中的情感极性，是近年来自然语言处理领域的一个热点问题。随着社交网络的蓬勃发展，越来越多的用户以短文的形式在互联网上表达自己的观点。微博、电商买家评论和当前新闻评论是主要的软文本。对主观短文本进行情感分类的过程称为短文本情感分析。
短文本情感分析是文本情感分析的一种。目前，深度学习技术广泛应用于文本情感分析任务。Kim[2]将卷积神经网络(CNN)应用于短文本建模和句子级别的文本情感分析任务。Kalchbrenner等人[3]提出了动态卷积网络，介绍广义卷积和k-Max Pooling的概念。Chen等人[4]提出了结合单词情感特征的卷积神经网络(Convolutional Neural Network, WFCNN)。Conneau等人[5]提出了深度卷积神经网络(Deep Convolutional Neural Network, VDCNN)，该网络将多个卷积层级联。级联深度越大，模型的性能越好。Wang等人将长短期记忆网络(Long - short Memory Network, LSTM)应用于推特情感分析任务。上述深度学习方法避免了人工提取特征的繁琐过程，可以获得比传统分类器更好的分类性能。然而，上述方法仅考虑文本中的单一特征。考虑到基于短文本的文本特征是有限的，在短文本情感分析中，我们应该尝试挖掘出文本各个角度的特征，并使用多种情感特征组合来学习隐藏在短文本中的情感信息来完成情感分析任务。
针对上述问题，本文提出了基于多通道卷积和多头注意力机制的文本情感分析方法来解决短文本情感分析问题。该方法首先对文本中的单词进行词性标注，并将词性标注映射到多维连续值向量，从而将单词的词性特征添加到模型中。由于单词的位置影响句子的语义表达，将每个单词的位置值映射为一个位置特征向量;句子结构和单词之间的依赖关系包含了隐藏的情感信息，因此对文本进行依赖句法分析，并对每个单词对应的依赖句法特征向量进行分析。这样，该模型可以在训练过程中从多个角度学习文本的情感特征信息，并获得更准确的分类效果。其次，将词向量分别与词性特征向量、位置特征向量和依赖句法特征向量相结合，生成三个输入通道，并利用多通道卷积神经网络学习句子中的情感特征信息。同时，在模型中引入了多注意力机制，从多个子空间中学习到更丰富的情感信息，进一步提高了情感分类的准确性。
本文的模型结构是在Li和Qi[7]工作的基础上的改进。李的工作提出使用一个多通道双向长、短期记忆网络来完成文本情感分析。基于李的多通道思想，本文模型采用多通道卷积神经网络和多头注意机制完成文本情感分析。与Li提出的模型相比，本文模型保证了情感分类的准确性，大大优化了模型的训练时间。
本文提出的模型和八个比较模型之间的对比实验在两个中文数据集上完成,中国酒店评论Tan Songbo编纂的数据集和淘宝中国审查数据集。实验结果表明,本文提出的模型MCNNMA取得更好的分类结果的比较模型的两个中国获得的数据集和训练时间相对较低。
本文的主要贡献如下:

提出了一种结合特征形成不同特征通道的MCNN-MA模型，并利用多通道卷积神经网络从不同角度学习情感特征。与lstm相关模型相比，该模型大大减少了模型的训练时间。
引入了多头注意机制。多头注意机制可以通过多重线性变换从不同维度和不同表征子空间中学习相关信息，提高情感分类的准确性。
在两个中文数据集上验证了MCNN-MA模型的有效性。

情感分析模型

为了充分利用文本情感分析任务中特有的情感资源信息，本文提取了四种特征:单词特征、部分词性特征、位置特征和依赖句法特征。单词特征分别与其他三种特征组合，形成三种新的组合特征，输入到多通道卷积神经网络中。然后，从不同的通道提取特征，并输入到多级注意层。最后通过情感分类层得到情感分类结果。该模型的总体框架如图1所示。
在这里插入图片描述

特征构建

1）词特征
句子中的单词是重要的情感特征信息的载体，所以在文本分类任务中，句子是以单词为单位来表示的，句子s被认为是由n个单词组成的词序列。句子中的每个单词都映射到一个多维连续值向量。假设 $ω_i∈ R^m$ 是句子中与第i个单词相关的词向量，m是词向量的维度。
将n个词向量拼接得到长度为n的句子对应的词向量矩阵W，如式(1)所示。⊕为向量拼接运算。
$W = ω_1⊕ ω_2⊕ · · · ⊕ ω_n$