本发明涉及一种中文字词向量和方面词向量联合嵌入CNN-LSTM情感分析方法。
背景技术:
近年来,越来越多的用户习惯在网络上发自己对某一事物的看法与评论。如何快速,准确地从互联网海量评论信息中分析所包含的用户情感已经成为当前信息科学与技术领域研究的热点。用户评论情感分析中最基本的任务是对用户的情感倾向进行分类,其中包括二元情感分类和多元情感分类。
在自然语言处理领域,深度学习方法首先将文本转化为一组向量序列表示,然后将该向量序列输入神经网络模型提取特征,最后将特征输入分类器进行情感分类。当前大部分的词向量模型针对一个单词只能生成一个向量,由于单词的多义性,使用同一个向量表达不同语境下的同一个单词是不准确的。对于神经网络训练手段,基于卷积神经网络的特征提取方法使用一个滑动窗口来提取输入的局部特征,并通过池化技术将这些局部特征组合起来;而基于循环神经网络的LSTM神经网络的特征提取方法将输入编码为一个定长的特征,可以有选择地保存和遗忘信息来存储文本中的重要的信息。
然而,近年来随着深度学习技术发展而产生的基于深度神经网络的方法大多停留在使用单一网络或网络的简单变体的阶段,采用复杂结构进行长文本情感倾向性分析的研究相对较少。
技术实现要素:
本发明的目的是:将卷积神经网络和LSTM网络组合,并且改变以往词向量嵌入模型,有效改善情感分析判断的准确度。
为了达到上述目的,本发明的技术方案是提供了一种中文字词向量和方面词向量联合嵌入情感分析方法,其特征在于,包括如下步骤:
步骤一、载入中文商品评论语料库,并将语料库按比例进行分割,分为训练集和测试集;