初识《情感分析》

本文探讨了文本情感分析的三种主要方法:基于情感词典、机器学习和深度学习。强调了情感词典在特定领域(如电商评论、丹马库视频评论)的重要性,并介绍了如何扩展情感词典以提高分析准确性。同时,提到了深度学习模型如CNN和GRU在特征提取和情感分类中的作用。此外,文章指出,尽管现有方法取得进展,但提高情感分析的泛化能力仍是挑战。
摘要由CSDN通过智能技术生成

摘 要

文本情感分析是自然语言处理的一项重要任务,旨在分析文本的综合情感极性。现阶段的情感分析方式主要为三类:(1)基于情感词典的文本情感分析;(2)基于机器学习的文本情感分析;(3)基于深度学习的情感分析方法。基于情感词典的分析方法受限于情感词典中情感词的种类与数量,所以可以构建扩展情感词典弥补不足;基于传统机器学习的方法本质上是文本分类,利用大量文本进行训练得到情感分类器,需要人为干预;基于深度网络的分析方法则通过自监督学习情感信息识别和监督学习句子综合情感极性预测任务,实现基于情感信息的模型。本文回顾了以上三种的优化实现,并且对丹马库视频实时评论、电子商务产品评论进行了分析实践。

关键词:情感分析;深度学习;机器学习;神经网络;情感词典。

1.介绍

近年来,随着互联网技术的快速发展,电子商务平台、社交媒体、新闻影视平台已经走进我们的生活。社区、论坛、博客等网络社交平台成为人们表情达意的地方,人们讨论话题,分享观点。人们利用网络平台的信息发表看法观点时,这些观点也影响着事情的发展。电子商务的发展使得网购成为越来越多人的消费选择,相较于线下购物,网购可以不限时间、不限地点、不限天气等客观因素随时随地地进行,同时电商产品种类繁多,风格各异,可选择性高,但网络上销售产品存在描述信息与真实产品不一致、商品质量差、售后服务差等问题,因而人们通过查看其他消费者的评价来评判真实与好坏。所以把握舆情风向,了解评论导向极其重要。分析公众在社交媒体中的意见,不仅可以使平台甚至政府掌握事情舆论走向以便进行下一步统筹规划;分析消费者评价的情感极性与情感倾向,不仅可以为其他消费者提供参考,而且可以帮助电商平台的商家改进服务,提高质量和消费者满意度。

情感分析是指利用信息技术对文本情感进行情感极性与倾向性的挖掘,是自动分析主观评论文本的过程。通常来讲,情感极性分三类:1.消极、2.积极、3.中性。根据文本的粒度,我们可以将文本情感分析分成三个层次:词、句、段。词级即为分析词的情感,它是句与段的基础,主要包括情感词的提取、情感词分类和情感词典的构建。句级是核心,句子情感分析结果是由句子中的情感词决定,同时否定词会影响极性,程度副词会影响程度。段级情感分析是句子分析结果的综合考虑。同时段级的情感倾向四基于语境的语义关系。

基于情感词典的分析方法的核心是构建情感词典,可以通过目前中文文本情感分析中使用最多的是知网情感词典、台大情感词典。然而上述情感词典对于领域情感词是缺失的,例如洗发水领域的“洗完毛躁干枯”,水果领域的“果子脆甜”等情感词难以分辨。对于有积极、中性、消极的多义情感词也是缺失的。所以为了提高该方法的分析效果,考虑特定领域的情感词和多义情感词,徐等人[1]提出了一种基于扩展情感词典的中文文本情感分析方法。吴[2]等人将句间分析规则和句型分析规则引入微博文本的情感分析中,基于多情感词典和语义规则集的方法,提出新的微博文本情感分析方法。

基于机器学习的分析方法本质上是文本分类,使用大量文本信息训练一个情感分类器,用于判断文本的情感倾向。庞等人[3]应用朴素贝叶斯算法、最大熵算法和SVM算法进行影评情感分析。基于机器学习的情感分析解决了情感词的稀疏性问题,并将文本向量化,转化成结构化数据,然而它将每个特征视为一个孤立的元素,而忽略了特征之间的内在联系,且分类效果极大依赖于语料库的人工标注质量。所以李[4]等人提出了基于朴素贝叶斯和情感词典的分析方法,并用于丹马库视频情感分析。

基于深度学习的情感分析方法,是文本神经网络和字符神经网络采用卷积神经网络进行提取文本特征和分类文本。考虑到CNN倾向于提取文本的局部特征,基于RNN的网络是时间相关的,结合两者[5]提出基于情感信息的模型SINM,它包括两个学习任务:辅助任务是自监督学习的情感信息识别任务,主任务是监督学习的句子综合情感极性预测任务。李[6]等人基于情感词典,结合了卷积神经网络和基于注意力的双悬门控递归单元提出了SLCABG模型。

2.基于扩展情感词典的算法

文本情感分析方法框架如图1,它考虑了具有多重情感极性的多义情感词,朴素贝叶斯领域分类器用于区分多义情感词的文本领域,情感短语得分计算过程如图2所示。
在这里插入图片描述
图 1文本情感分析方法的框架

A.构建词典

1.基本情感词典

知网情感词典与台大情感词典是中文文本情感分析常用词典,它们收录了可用于广泛领域的情感词,基础词典构成如图3,包括原始情感词和互联网流行语。

在这里插入图片描述
图 2情感短语的评分计算过程
在这里插入图片描述
图 3基础词典的构成

2.扩展情感词典

基础词典包含了大量感觉形容词,但缺乏一些特定领域的情感词,它们的情感倾向比较独特。例如:“(产品)停止工作了”,“(头发)干枯”等。徐[1]等人的情感分析语料库涵盖了五个领域:酒店、数字、水果、服装和洗发水。筛选出462个领域情感词和413个多义词。
在这里插入图片描述
表 1多义情感词举例

3.程度副词词典

程度副词通常在情感词左边,不会改变情感词极性,加强或减弱情感评分效果。

4.否定词词典

否定词通常在情感词的左边,它改变了情感极性,但偶数个否定词并不改变。

5.连词词典

连词包含递进连词、过渡连词、因果连词和让步连词等,本文研究过渡连词和递进连词,递进连词表示增强,过渡连词表示改变极性。

B.朴素贝叶斯领域情感词分类器

解决多义情感词降低准确率的问题,通过朴素贝叶斯分类算法识别多义情感词,然后通过扩展情感词典,区分领域中多义情感词的极性。
朴素贝叶斯算法是一种基于贝叶斯定理的分类方法。首先,基于特征的独立假设,训练训练集,学习输入/输出的联合概率密度。然后基于这个模型,对于输入的X,贝叶斯定理被用来寻找具有最大后验概率Y的输出。文本{x1,x2……xn},Y{y1,y2……yn}是文本类别的标签,朴素贝叶斯分类器可以表示为公式1。
在这里插入图片描述
公式 1朴素贝叶斯分类器

C.情感评分的计算

文本情感评分的计算过程可以分解为情感短语评分的计算、句子情感评分的计算和文本情感评分的计算。

1.情感短语情感得分的计算

否定词在扭转情感词极性方面起着关键作用,程度副词在强化或弱化情感词分值方面起着关键作用。与此同时,‘!’'已考虑在内。将情感词和这些修饰语的组合称为情感短语。DA 表示程度副词,NA 表示否定词,SW 表示情感词,S 表示敏感短语。V(SW)代表情感词的情感得分,V(DA)代表程度副词的权重,NA 代表否定词的数量。计算方法如表2所示。
在这里插入图片描述

2.句子分数计算与文本情感

句子情感评分的计算基于情感短语。考虑过渡连词和进行连词,可以计算句子的情感得分。计算方法如下:
在这里插入图片描述
表 2 情感短语的情感评分计算方法

3.基于朴素贝叶斯和情感词典的算法

李[4]等人构建了一个丹马库情感词典,并提出了一种利用情感词典和朴素贝叶斯对丹马库评论进行情感分析的新方法,在情感评分和极性检测上有显著效果。
丹马库(danmaku),即人们常言的“弹幕”,源于日本尼科动画视频网站,是一个实时评论功能,关于视频的评论内容与视频内容同步。作为一种新型信息的分享方式,它与传统短文有两大方面不同:首先丹马库的文字更简短,更随意,且多用短语与符号来表达想法与感受;其次,内容更具有搭配性和象征性,且多用网络流行语表达情感。本质上,丹马库文本式基于视频中时间序列的短文本,因而情感倾向更具动态性。

A.构建丹马库情感字典

1.丹马库数据预处理

文本内容主要包括两部分:内容与出现时间。首先去噪,去除不含任何情感信息的干扰文本,然后利用汉语分词工具和流行语词典对文本进行分词和词性标注,最后使用一个停用词工具去除语气词、标点符号和数学符号。

2.情感词典扩展

带表情符号的数据主要基于大连理工大学中文情感词汇本体数据库,构建表情符号集;对于文本中包含的网络语言采用包含733个网络热词的流行语词典补充。最后丹马库情感词典包含大连理工大学的情感词汇本体数据库、流行语词典和表情集结合成一个完整的丹马库情感词典。

B.丹马库情感分类

1.基于情感词典的特征选择

研究采用情感词典的特征提取方法实施:在遍历丹马库文本的基础上匹配文本中所有的特征词。相较于定长切割可能造成特征词丢失的n-gram算法和忽略文本时效性和文本类型对算法参数影响的TF-IDF算法,基于情感词典的算法不受文本本来源领域、文本时效性或文本类型的影响,极大降低情感分类的局限性。

2.用朴素贝叶斯进行情感分类

朴素贝叶斯分类器式一种基于贝叶斯统计和贝叶斯网络方法的模型。它主要是根据先验概率分布预测丹马库样本属于某个情感类别的后验概率,选择概率最高的情感类别作为前验概率预测的情感类别。
定义W(w1,w2, …… ,wn) 为丹马库样本,C(c1, c2, · · · , c7)为丹马库情感类别集。朴素贝叶斯分类器的数学模型可表示为
P(Ck | W)=arg max {P( c1| W), P( c2| W), · · · , P( c7| W)}, (2)
后验概率可表示为
在这里插入图片描述
其中M是训练集中不重复的情感词的数量。

C.丹马库情感值计算

处理后的丹马库文本可能包含情感词、网络词或者表情符号,前两个还可能用程度副词和否定词修饰。定义V是句子中的一种情况下的情感值,g表述情感词的权重,h表示网络词的权重,θ 表示程度副词的权重,e表示表情符号的权重。情感得分为喜欢、幸福、惊讶、恐惧、愤怒、悲伤和厌恶的集合。
1.只出现情感词:V1=g1+g2+……+gl,l表示情感词数量;
2.只出现表情符号:V2=e1+e2+……+ep,p表示表情符号数量;
3.只出现网络词:V3=h1+h2+……+hz,z表述网络词的个数;
4.情感词被否定词修饰:在这里插入图片描述
5.网络词被否定词修饰:在这里插入图片描述
6.情感词被程度副词修饰:在这里插入图片描述
7.网络词被程度副词修饰:在这里插入图片描述
8.情感词被否定词和程度副词同时修饰:在这里插入图片描述
9.网络词被否定词和程度副词同时修饰:在这里插入图片描述
复杂情况可以用V=V1+V2+……+V9计算。

4.基于深度学习的算法

与传统机器学习算法相比,深度学习不需要人工感与特征,但需要海量数据作为支撑。基于深度学习的方法自动从不同神经网络模型中提取特征,并从自身错误中学习。李[6]等人对电子商务评论进行情感分析实践,为了提高产品评论情感分析的准确性,结合情感词典、CNN模型、GRU模型和注意机制的优势,提出了SLCABG模型。首先,情感词典用于增强评论中的主要情感特征和上下文特征,并利用关注机制进行加权。最后,对加权情感特征进行分类。该模型由六层组成:嵌入层、卷积层、Pooling层、BiGRU层、关注层和全连接层。模型结构如图4。
在这里插入图片描述
图 4 SLCABG模型的结构

A.构建情感词典

情感词典的功能示给句子中的词赋予情感权重,这里采用大连理工大学的情感词汇本体库,去掉中性与多义情感词,只保留消极与积极的情感词,即保留极性为 1 和 2 的词。情感词按情感强度分为 5 类,即 1、3、5、7、9,以情感强度为情感权重,情感极性为负的情感词将情感权重乘以 1。
在这里插入图片描述
图 5 词情感权重的数学结构

B.嵌入层

该层的主要功能是将文本状态表示为一个加权的词向量矩阵。文本数据是离散值,所以需要将词表示为低维连续稠密向量,意义相似的词将被映射到向量空间中相似的位置。BERT 模型是谷歌提出的一种新的预训练语言模型用于自然语言处理领域。它是一种真正实现双向语言的模型,性能较优。在SLCABG的模型中,使用 BERT 模型来训练单词向量。使用 BERT 模型将 S 中的每个单词 wi 转换成单词向量 vi,其中 vi 是 768 维向量。然后,使用情感权重对词向量进行加权。加权的词向量矩阵作为嵌入层的输出。

C.卷积层

该层的主要功能是提取输入矩阵最重要的局部特征。在自然语言处理领域,词的词向量表示通常是一个整体。 因此,卷积层中的卷积核宽度通常取词向量的维数。对于输入向量在这里插入图片描述
在这里插入图片描述
进行操作
W ∈ Rk∗m,表示权重矩阵,k和m表示卷积核的高度和宽度,b表示偏移量,f代表激活函数ReLU。

D.POOLING层

该层的主要功能是对卷积层得到的文本特征进行压缩,提取主要特征。池操作通常分为平均池和最大池。对于文本情感分析,最有影响的通常是句子中的几个单词或短语,所以我们使用 k-max 池。 对于输入向量 virr,其 k-max 池操作为:
x = [x1,x2,,xi,xm—k+1]
在这里插入图片描述

E.BiGRU 层

该层的主要功能是提取输入矩阵的上下文特征。GRU 模型是递归神经网络模型的变体,通常用于处理序列信息。它可以结合前一时刻的历史信息来影响当前输出,并提取序列数据中的上下文特征。在文本数据中,前后词都会影响当前词,因此我们使用 BiGRU 模型来提取输入文本的上下文特征。BiGRU 由正向 GRU 和反向 GRU 组成,分别用于处理正向和反向信息。对于时间 t 的输入
xt,由正向 GRU 和反向GRU 获得的隐藏状态是:
在这里插入图片描述

F.关注层

在文本陈述中,每个词对整个句子的情感极性有不同的影响。有些词对整句的情绪有决定性的影响,有些词不影响句子情绪。所以我们用注意机制给句子中不同的词赋予不同的权重。
对于 BiGRU 层输出的隐藏状态 hi,权重 ai 表示为:
在这里插入图片描述

G.全连接层

该层的主要功能是对输入特征矩阵进行分类。其输出定义为: Y = f (W X) + b ,其中 f 代表激活函数 sigmoid,w 代表权重矩阵,b 代表偏移量。该图层将输入要素映射到区间[0,1]中的值。该值越接近0,输入文本的感觉极性越接近负方向。相反,如果该值更接近 1,则表示输入文本 s。情感极性更接近。

5.总结

本文回顾了经典的情感分析方法,并对情感分析在电子商务产品评价、丹马库视频评论进行了实践。我发现它们方法的相通之处:1.构建专属的情感词典2.利用机器学习或深度学习方法进行分析。因为现有的情感词典是基于广泛领域的,对于特定领域譬如丹马库评论里的网络流行语和表情、电商产品的描述词都是缺失的,所以对某个领域进行情感分析前,必须构建专属的情感词典才能提高准确率。构建完成情感词典后就需要基于词典进行分析,本质是分类工作,所以可以利用机器学习传统算法构建分类器,也可以利用深度学习网络进行模型训练。
但是这种工作模式不具有泛化性,构建的新词典也局限于研究问题,对其他问题不适用,如何提高情感分析的泛化能力是一个值得进一步研究的问题。在日常生活中,我们所言并非其意,可能在一段文字中只有一句为真话,其余为反话,此时正确分析出“嘲讽”之意则为难事。当然这是否揭示了人不会被人工智能取待的道路?
本文的所有图片、公式皆为引用论文中摘录,同时我并没有对结果进行分析,只是比较归纳方法。

参考文献

[1]G. Xu, Z. Yu, H. Yao, F. Li, Y. Meng and X. Wu, “Chinese Text Sentiment Analysis Based on Extended Sentiment Dictionary,” in IEEE Access, vol. 7, pp. 43749-43762, 2019, doi: 10.1109/ACCESS.2019.2907772.
[2]J. Wu, K. Lu, S. Su and S. Wang, “Chinese Micro-Blog Sentiment Analysis Based on Multiple Sentiment Dictionaries and Semantic Rule Sets,” in IEEE Access, vol. 7, pp. 183924-183939, 2019, doi: 10.1109/ACCESS.2019.2960655.
[3]B. Pang, L. Lee, and S. Vaithyanathan, “Thumbs up?: Sentiment classi- fification using machine learning techniques,’’ in Proc. ACL Conf. Empirical Methods Natural Language Process., Stroudsburg, PA, USA, 2002, pp. 79–86.
[4]Z. Li, R. Li and G. Jin, “Sentiment Analysis of Danmaku Videos Based on Naïve Bayes and Sentiment Dictionary,” in IEEE Access, vol. 8, pp. 75073-75084, 2020, doi: 10.1109/ACCESS.2020.2986582.
[5]G. Li, Q. Zheng, L. Zhang, S. Guo and L. Niu, “Sentiment Infomation based Model For Chinese text Sentiment Analysis,” 2020 IEEE 3rd International Conference on Automation, Electronics and Electrical Engineering (AUTEEE), 2020, pp. 366-371, doi: 10.1109/AUTEEE50969.2020.9315668.
[6]L. Yang, Y. Li, J. Wang and R. S. Sherratt, “Sentiment Analysis for E-Commerce Product Reviews in Chinese Based on Sentiment Lexicon and Deep Learning,” in IEEE Access, vol. 8, pp. 23522-23530, 2020, doi: 10.1109/ACCESS.2020.2969854.

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值