微博评论词云图
最近小猪在5月20号发布了一篇对周扬青的小作文,我正好也想做一个词云图的项目,
所以爬取了这条微博的评论,做个词云图来看看大家都在说些什么,
PS:有些信息只能脱敏
#导包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import repeat_word as rw
import jieba
import jieba.analyse
from wordcloud import WordCloud,STOPWORDS #词云图,屏蔽词
from PIL import Image#读取图片
#显示中文
plt.rcParams['font.sans-serif']='simhei'
plt.rcParams['axes.unicode_minus']=False
数据处理
# 这是我之前已经爬取好的评论数据
df = pd.read_excel(r"F:\Eddy\罗志祥博文评论.xlsx")
df.head()
发帖子人 | 博文发布时间 | 评论者 | 评论内容 | 评论时间 | 评论点赞 | |
---|---|---|---|---|---|---|
0 | lzx | 5月20日 09:12 | 1 | 四十岁啦还自称男孩6666(学到了 | 5月20日 13:20 | 1163934.00 |
1 | lzx | 5月20日 09:12 | 2 | 土狗,我初中就不写这种东西了 | 5月20日 09:20 | 953578.00 |
2 | lzx | 5月20日 09:12 | 3 | 热搜预备:罗志祥舔起来了 | 5月20日 09:12 | 370486.00 |
3 | lzx | 5月20日 09:12 | 4 | 不是繁体,是本人写的吗?难每天半夜给周扬青发消息的只是你的替身?是个大陆人? | 5月20日 09:17 | 324679.00 |
4 | lzx | 5月20日 09:12 | 5 | 你的恋爱,我心疼;你的文字,还爱她。 | 5月20日 09:18 | 261725.00 |
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 687 entries, 0 to 686
Data columns (total 6 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 发帖子人 687 non-null object
1 博文发布时间 687 non-null object
2 评论者 686 non-null object
3 评论内容 679 non-null object
4 评论时间 686 non-null object
5 评论点赞 349 non-null float64
dtypes: float64(1), object(5)
memory usage: 32.3+ KB
#删除无评论项
df.dropna(inplace=True)