Python爬取《你好李焕英》豆瓣短评并基于SnowNLP做情感分析

最新推荐文章于 2024-10-06 00:43:43 发布

BugMiaowu2021

最新推荐文章于 2024-10-06 00:43:43 发布

阅读量1w

点赞数 40

分类专栏： # Python爬虫文章标签：可视化 python 自然语言处理 nlp javascript

本文链接：https://blog.csdn.net/m0_46278037/article/details/114157292

版权

本文通过Python的SnowNLP库对《你好李焕英》豆瓣短评进行情感分析，展示情感各分数段频率、波动情况，并探讨改进方法，以更直观展现评论情感分布。

摘要由CSDN通过智能技术生成

爬取过程在这里：

Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图

本文基于前文爬取生成的douban.txt，基于SnowNLP做情感分析。

依赖库：

豆瓣镜像比较快：

pip install snownlp -i http://pypi.douban.com/simple/ --trusted-host=pypi.douban.com/simple

在这里插入图片描述

初识SnowNLP：

SnowNLP是一个常用的Python文本分析库，是受到TextBlob启发而发明的。由于当前自然语言处理库基本都是针对英文的，而中文没有空格分割特征词，Python做中文文本挖掘较难，后续开发了一些针对中文处理的库，例如SnowNLP、Jieba、BosonNLP等。

Snownlp主要功能包括：

中文分词（算法是Character-Based Generative Model）
词性标注（原理是TnT、3-gram 隐马）
情感分析
文本分类（原理是朴素贝叶斯）
转换拼音、繁体转简体
提取文本关键词（原理是TextRank）
提取摘要（原理是TextRank）、分割句子
文本相似（原理是BM25）

情感分析实战：

SnowNLP情感分析是基于情感词典实现的，其简单的将文本分为两类，积极和消极，返回值为情绪的概率，也就是情感评分在[0,1]之间，越接近1，情感表现越积极，越接近0，情感表现越消极。

下面对爬取的豆瓣电影《你好李焕英》评论进行情感分析。

情感各分数段出现频率

首先统计各情感分数段出现的评率并绘制对应的柱状图。

对douban.txt文件逐行进行情感倾向值计算，代码如下：

# -*- coding: utf-8 -*-
# -*- coding: utf-8 -*-
from snownlp import SnowNLP
import matplotlib.pyplot as plt
import numpy as np

source = open("douban.txt"

最低0.47元/天解锁文章

BugMiaowu2021

关注

40
点赞
踩
273

收藏

觉得还不错? 一键收藏
打赏
11
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录