【R语言文本挖掘】：情感分析与词云图绘制_情感词云

最新推荐文章于 2024-08-09 14:28:19 发布

2401_84181164

最新推荐文章于 2024-08-09 14:28:19 发布

阅读量597

点赞数 27

分类专栏：程序员文章标签： r语言开发语言

本文链接：https://blog.csdn.net/2401_84181164/article/details/138334365

版权

本文介绍了使用R语言进行情感分析的方法，重点关注AFINN、Bing和NRC三种情感字典。通过情感分析示例，展示了在文本数据中应用这些字典的过程，以及它们在不同文本段落中的相对情绪轨迹。尽管绝对值不同，但字典在小说情节中的情绪变化趋势相似，AFINN给出最大绝对值，NRC则较积极。

摘要由CSDN通过智能技术生成

分析文本情感的一种方法是将文本视为单个单词的组合，将整个文本的情感内容视为各个单词的情感内容的总和。这不是进行情绪分析的唯一方法，但它是一种常用的方法，也是一种自然利用整洁工具生态系统的方法。

1.情感数据集

如上所述，存在多种用于评估文本中的观点或情感的方法和字典。 tidytext 包提供了对几个情感词典的访问。三个通用词典是：

AFINN
bing
nrc

所有这三个词典都基于一元词组（unigram），即单个单词。这些词典包含许多英语单词，并且这些单词被分配了正面/负面情绪的分数，也可能是喜悦、愤怒、悲伤等情绪。 nrc 词典以二进制方式（“是”/“否”）将单词分类为积极、消极、愤怒、预期、厌恶、恐惧、快乐、悲伤、惊讶和信任的类别。bing词典以二进制方式将单词分为正面和负面类别。 AFINN 词典为单词分配一个介于 -5 和 5 之间的分数，负分表示负面情绪，正分表示正面情绪。

在下载数据之前，我们可能会被要求同意许可。如果在jupyter-notebook里面运行的话会失败，建议大家在rstudio里面先运行下载。

函数 get_sentiments() 允许我们获取特定的情感词典，并为每个词典提供适当的度量。我们现在来看一下各个情绪词典的信息

library(`tidytext`)
library(dplyr)
get_sentiments("nrc") %>% head()

A tibble: 6 × 2

word	sentiment

abacus	trust
abandon	fear
abandon	negative
abandon	sadness
abandoned	anger
abandoned	fear

get_sentiments("bing") %>% head()

A tibble: 6 × 2

word	sentiment

2-faces	negative
abnormal	negative
abolish	negative
abominable	negative
abominably	negative
abominate	negative

get_sentiments("afinn") %>% head()

A tibble: 6 × 2

word	value

abandon	-2
abandoned	-2
abandons	-2
abducted	-2
abduction	-2
abductions	-2

这些词典都是通过整合云资源、餐厅或电影评论等数据的某种组合进行验证。鉴于这些信息，我们可能会犹豫将这些情感词典应用于与它们所验证的文本风格截然不同的文本风格，例如 200 年前的叙事小说，

最低0.47元/天解锁文章

2401_84181164

关注

27
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
【R语言文本挖掘】：情感分析与词云图绘制_情感词云

A tibble: 6 × 2A tibble: 6 × 2A tibble: 6 × 2A tibble: 6 × 4A tibble: 6 × 2A tibble: 6 × 5A tibble: 6 × 4网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们
复制链接

扫一扫