Python爬取《你好李焕英》豆瓣短评并基于SnowNLP做情感分析

本文通过Python的SnowNLP库对《你好李焕英》豆瓣短评进行情感分析,展示情感各分数段频率、波动情况,并探讨改进方法,以更直观展现评论情感分布。
摘要由CSDN通过智能技术生成

爬取过程在这里:

Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图

本文基于前文爬取生成的douban.txt,基于SnowNLP做情感分析。


依赖库:

豆瓣镜像比较快:

pip install snownlp -i http://pypi.douban.com/simple/ --trusted-host=pypi.douban.com/simple

在这里插入图片描述


初识SnowNLP:

SnowNLP是一个常用的Python文本分析库,是受到TextBlob启发而发明的。由于当前自然语言处理库基本都是针对英文的,而中文没有空格分割特征词,Python做中文文本挖掘较难,后续开发了一些针对中文处理的库,例如SnowNLP、Jieba、BosonNLP等。

Snownlp主要功能包括:

  • 中文分词(算法是Character-Based Generative Model)
  • 词性标注(原理是TnT、3-gram 隐马)
  • 情感分析
  • 文本分类(原理是朴素贝叶斯)
  • 转换拼音、繁体转简体
  • 提取文本关键词(原理是TextRank)
  • 提取摘要(原理是TextRank)、分割句子
  • 文本相似(原理是BM25)

情感分析实战:

SnowNLP情感分析是基于情感词典实现的,其简单的将文本分为两类,积极和消极,返回值为情绪的概率,也就是情感评分在[0,1]之间,越接近1,情感表现越积极,越接近0,情感表现越消极。

下面对爬取的豆瓣电影《你好李焕英》评论进行情感分析。

情感各分数段出现频率

首先统计各情感分数段出现的评率并绘制对应的柱状图。

对douban.txt文件逐行进行情感倾向值计算,代码如下:

# -*- coding: utf-8 -*-
# -*- coding: utf-8 -*-
from snownlp import SnowNLP
import matplotlib.pyplot as plt
import numpy as np

source = open("douban.txt"
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BugMiaowu2021

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值