情感分析入门总结


这是 本人刚入门情感分析时所总结的部分内容,可能存在一些问题,暂时没有时间更新了

情感分析的层次级别

现今的情感分析,研究人员主要从文档级、句子级和方面级(aspect level,也有论文称为target)这三个层次粒度对情感分析进行了研究。
现阶段,我认为句子级和方面级的研究多于文档级

情感分析方法

基于情感词典的方法
基于机器学习的方法
基于深度学习的方法

基于情感词典的方法

1 预处理
由网络爬虫等工具爬取到的原始语料,通常都会带有我们不需要的信息,比如额外的Html标签,所以需要对语料进行预处理。可使用Python作为预处理工具,可用的库有Numpy、Pandas、re、nltk等。
除了可爬取原始预料之外,还存在一些常用开放的语料库。比如Stanford Sentiment Treebank斯坦福情感树库(SSTb),斯坦福推特情绪语料库stanford Twitter Sentiment corpus,Amazon product review dataset亚马逊产品评论数据集等

2 分句、分词等
英文分词
(1)根据空格拆分单词(Split)
(2)排除停止词(Stop Word)
(3)词干提取(stemming)和词形还原(lemmatization)
中文分词
中文分词
在这里插入图片描述
3 情感词与短语的抽取(载入情感词典)
一般来说,词典是文本挖掘最核心的部分,对于文本情感分类也不例外。
4 情感倾向计算
词语级的情感极性分析是句子级和篇章级的情感极性分析的基础和前提,它包括 2 个方面的含义:提取出可能具有情感倾向的候选词;对该候选词进行分析,判断其倾向性及极性强度。

基于机器学习的方法

1.预处理
2.分词
3.文本结构化
文本结构化是机器学习中重要的一步,由于文本的特殊性,计算机不能直接理解文本中的语义。需要将文本转结构化以此作为分类器的输入。文本向量化是文本结构化的最重要的一步,其中最主要的是特征提取。
特征提取主要分两种方式:特征选择和特征抽取。
(1)向量空间模型
每一个文本都被映射成多维空间向量中的一个点,以向量的形式给出。对于所有文本,都可以用此模型中的向量(T1,W1;T2,W2;…Ti,Wi;…)来表示,其中Ti为词,Wi为词对应的权重。将文本信息的表示和匹配问题转化为向量空间中向量的表示和匹配问题来处理。
(2)潜在语义分析LSA
潜在语义分析模型使用统计计算方法对大规模的文本进行分析,从而提取出词与词之间的潜在的语义结构。
LSA利用数学中矩阵奇异值分解(SVD)理论来实现降维过程。
(3)主题模型LDA
主题模型基本思想是一个文档被表示为若干隐含主题的随机混合,而每个主题由一组词语的多项式分布组成。LDA模型希望通过将文档表示为一个主题向量来达到特征降维的目的。
(4)词嵌入
词嵌入是一个用低维连续空间来表示词语的过程,方法有word2vec,Glove等。
在这里插入图片描述
4.分类算法
常用方法:朴素贝叶斯、最大熵、支持向量机、k近邻模型等。

5.评价
评价指标:
1)准确率Accuracy = (TP + TN)/(TP + FN + FP + TN)
2)查准率Precision = TP/(TP+FP)
3)查全率Recall = TP/(TP+FN)
4)综合评价指标(F-Measure)
F-Measure是查准和查全的加权调和平均:
在这里插入图片描述

当参数α=1时,就是最常见的F1,也即

在这里插入图片描述
可知F1综合了P和R的结果,当F1较高时则能说明试验方法比较有效。

基于深度学习的方法

1.预处理
2.分词
3.文本表示
4.运用深度学习方法 (这一部分方法太多,编码解码、RNN、LSTM、GRU、CNN、attention等,具体的方法此处就不展开了。)
5.评价

展望与发展趋势

1.社交网络,如基于twitter的情感分析的f1值、准确率都很低
2.跨领域一般就是迁移学习
3.反讽等
4.个人建议 研究句子级的情感分析可以考虑研究跨领域的问题。研究方面级情感分析可以研究方面提取、方面级情感分类或者端到端的方面级情感分析。
参考:
由于当时做PPT是参考了众多博客,当时没有都保存,再看到会及时更新的,望见谅。
1.Lei Zhang, Shuai Wang, Bing Liu.Deep learning for sentiment analysis: A survey. Wiley Interdiscip. Rev. Data Min. Knowl. Discov. 8(4) (2018)
https://onlinelibrary.wiley.com/doi/full/10.1002/widm.1253
2.基于情感词典的情感分析https://blog.csdn.net/lom9357bye/article/details/79058946
3.中文分词
http://www.datayuan.cn/article/4671.htm
https://blog.csdn.net/flysky1991/article/details/73948971
https://blog.csdn.net/gdh756462786/article/details/79102642
4.斯坦福大学自然语言处理第七课“情感分析(Sentiment Analysis)
http://52opencourse.com/235/%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E7%AC%AC%E4%B8%83%E8%AF%BE-%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90%EF%BC%88sentiment-analysis%EF%BC%89
5.情感分析
6.前几天看到一个入门级整理的比较好的博客
情感分析与观点挖掘总结笔记(一)

  • 15
    点赞
  • 91
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
社交媒体情感分析是指通过对社交媒体上的文本数据进行处理和分析,来确定这些文本的情感倾向性,即积极、消极或中性。有许多方法可以实现社交媒体情感分析,其中一种常用的方法是使用Python编程语言来构建情感分析服务。 在Python中,有两个开源软件包可以用于社交媒体情感分析:TextBlob和vaderSentiment。其中,vaderSentiment是一种基于规则的模型,专门用于分析社交媒体文本数据的情感。vaderSentiment可以测量文本的积极、消极和中立情绪。它通过对人工标记数据进行训练,包括常见的表情符号、UTF-8编码的表情符号以及口语术语和缩写(例如meh,lol,sux)。 通过使用vaderSentiment软件包,你可以构建一个可扩展的社交媒体情感分析服务。该软件包提供了一些功能,可以帮助你对文本数据进行情感分析。你可以使用Python编程语言和vaderSentiment软件包来读取和处理社交媒体上的文本数据,并使用该软件包提供的函数对文本进行情感分析。这样,你就可以获得文本的情感倾向性,进而了解用户在社交媒体上的情感态度和观点。 总结起来,社交媒体情感分析是通过对社交媒体文本数据进行处理和分析,来确定文本的情感倾向性。在Python中,可以使用vaderSentiment软件包构建一个可扩展的社交媒体情感分析服务,该软件包可以测量文本的积极、消极和中立情绪。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [python用社交网络分析_Python社交媒体情感分析入门](https://blog.csdn.net/cumo3681/article/details/107390364)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值