企鹅弹幕提取并制作关键词云4
企鹅弹幕提取并制作关键词云4
-无业游民找工作莫得结果的第十四天,继续人间小苦瓜和关键词云的爱恨情仇
快速指路:
1.1腾讯视频弹幕提取并制作关键词云1:弹幕在哪里
1.2腾讯视频弹幕提取并制作关键词云2:scrapy弹幕的获取
1.3企鹅弹幕提取并制作关键词云3:自动爬取全集+sql数据库写入
1.4企鹅弹幕提取并制作关键词云4:jieba分词+collections词频统计+wordcloud制作关键词云
写完代码好几天了,但是这几天真的好累好懒。
本篇用到的库如下:
import jieba #jieba分词
import collections #词频统计库
import numpy
import wordcloud #词云展示库
from PIL import Image #图像处理库
import matplotlib.pyplot as plt #图像处理库
1.4.1jieba分词
调用python中的jieba库对句子进行分词操作。jieba 是目前最好的 Python 中文分词组件,它有多重分词的模式,可以通过不同的需求和效果调用不同的函数。同时jieba还可以添加自定义库。比如我是用小欢喜的弹幕进行处理的,词典中我会提前将演员的名字,人物的名字,还有剧中可能会出现的词语等等。这个词典需要经过反复的测试,通过分词的效果来看是否要添加新的字。
词典的格式:一行一个:
小欢喜
黄磊
方圆
海清
童文洁
陶虹
宋倩
王砚辉
季胜利
利用jieba分词:
jieba.load_userdict("F:\danmu_process\dic_xiaohuanxi.txt") #载入自建jieba字典
result_4=jieba.cut(result_2,cut_all=False)#jieba分词
1.4.2collections统计
在用jieba分词之后,就可以调用collections库来统计词语出现的次数了。
我们会发现分词的结果存在着特殊字符或者我们不想要的字词等,在用collections统计的时候,我们可以添加一个list存储我们不想被统计的字词等:
remove_words=[u'的',u'是',u'就',u'我',u'了',u'来',u'啊',u'这',u'吗',u'像',u'那',u'跟',u'呢',u'吧',u'都',
u'你',u'也',u'还',u'呀','怎么','说','在','他','又','两',
'.',' ',',','。','~','?','!','[',',',']','\\',':','...','…','~',
'1','6',
'xa0','??','??','??'] #自定义去除字库
for word in result_4:
if word not in remove_words: #如果觉得单字没有意义的话,可以再添加len(word)>1来只统计2个字以上的词语
word_list.append(word)
#统计词频率
word_counts=collections.Counter(word_list)
word_counts_top=word_counts.most_common(100)
1.4.3 wordcloud词云生成
接下来就是词云生成和展示的部分了:
wordcloud生成词云,通过调用matplotlib进行图像处理。wordcloud还能根据自定义背景图案更改字的颜色。
mask=numpy.array(Image.open("F:\\danmu_process\\background.jpg"))
wc=wordcloud.WordCloud(
font_path='C:\\Windows\\Fonts\\simhei.ttf',#设置字体格式
mask=mask,#设置背景图
max_words=75,#最多显示词数
max_font_size=110, #字体最大值
background_color='white',
prefer_horizontal=0.9#默认就是0.9,可以不写。如果要全部横向显示,就写=1
)
#从字典生成词云
wc.generate_from_frequencies(word_counts)
#颜色方案建立
image_colors=wordcloud.ImageColorGenerator(mask)
#将词云颜色设置为背景图方案
wc.recolor(color_func=image_colors)
#显示词云
plt.imshow(wc)
#关闭坐标轴
plt.axis('off')
#显示
plt.show()
选择的背景图案:
1.4.4最后的效果展示:
1.4.6 巴拉巴拉
弹幕爬取和弹幕词云的简单制作就告一段落了。发现写博客也算是复习了一波了。以前写的代码用完了也就完事了,到最后变成代码每年的量也挺多,但是回忆起来又觉得好像也没做啥。还是得努力找工作啊害。白白。
企鹅弹幕提取并制作关键词云4相关教程