《长津湖》短评简单分析

前两天在豆瓣上爬取了一些《长津湖》电影的短评,今天就来简单分析一下。

本篇文章主要分析文字部分。

1.准备阶段

通过pip安装pandas、jieba、matplotlib、wordcloud库

准备停用词典

2.加载库

import pandas as pd
import jieba
from tkinter import _flatten
import matplotlib.pyplot as plt
from wordcloud import WordCloud

3.导入停用词典

with open(r'E:\python\changjinhu\stoplist1.txt','r',encoding='utf-8')as f:
    stopWords=f.read()
stopwords=['\n',''] + stopWords.split()   #引号里可以增加停用词,这里我增加了换行符\n

4.导入数据

data=pd.read_csv('E:\python\changjinhu\changjinhu.csv', encoding='GB18030')   # 将数据导入
dataCut = data['短评正文'].apply(jieba.lcut)  # 分词

5.用jieba库对短评正文分词,进行除停用词,词频统计操作

def my_word_cloud(data=None, stopWords=None, img=None):
    dataCut = data.apply(jieba.lcut)  # 分词
    dataAfter = dataCut.apply(lambda x: [i for i in x if i not in stopWords])  # 去除停用词
    wordFre = pd.Series(_flatten(list(dataAfter))).value_counts()  # 统计词频
   

6.整体词云图的绘制

mask = plt.imread('E:/python/changjinhu/xin.jpg')   #读取想要显示词云图形状的图片
cyt=WordCloud(font_path='C:/Windows/Fonts/simkai.ttf',mask=mask,background_color='white')  #设置词云图字体,形状,背景色
plt.imshow(cyt)    #画出词云图
plt.axis('off')   #去除坐标轴

 

 7.好评差评词云图的绘制

以评分30为界点,大于等于30为好评,小于30为差评

index_negative = data['评分'] < 30      # 差评数据索引
index_positive = data['评分'] >= 30     # 好评数据索引

好评词云图

my_word_cloud(data=data['短评正文'][index_positive], stopWords=stopWords, img='E:/python/hao.jpg')   # 好评数据的词云

 

差评词云图

my_word_cloud(data=data['短评正文'][index_negative], stopWords=stopWords, img='E:/python/cha.jpg')   # 差评数据的词云

8.小结 

本文评论数目有限,代表性不强,结果仅供参考,所有代码可供学习使用。

如有侵权联系即删,如有不足,欢迎评论区留言交流。

本人主要学习来源:登录 - 泰迪云课堂 - 大数据成就未来 - Powered By EduSoho

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Roy Teng

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值