java抓取企鹅弹幕,企鹅弹幕提取并制作关键词云4

企鹅弹幕提取并制作关键词云4

企鹅弹幕提取并制作关键词云4

-无业游民找工作莫得结果的第十四天,继续人间小苦瓜和关键词云的爱恨情仇

快速指路:

1.1腾讯视频弹幕提取并制作关键词云1:弹幕在哪里

1.2腾讯视频弹幕提取并制作关键词云2:scrapy弹幕的获取

1.3企鹅弹幕提取并制作关键词云3:自动爬取全集+sql数据库写入

1.4企鹅弹幕提取并制作关键词云4:jieba分词+collections词频统计+wordcloud制作关键词云

写完代码好几天了,但是这几天真的好累好懒。

本篇用到的库如下:

import jieba #jieba分词

import collections #词频统计库

import numpy

import wordcloud #词云展示库

from PIL import Image #图像处理库

import matplotlib.pyplot as plt #图像处理库

1.4.1jieba分词

调用python中的jieba库对句子进行分词操作。jieba 是目前最好的 Python 中文分词组件,它有多重分词的模式,可以通过不同的需求和效果调用不同的函数。同时jieba还可以添加自定义库。比如我是用小欢喜的弹幕进行处理的,词典中我会提前将演员的名字,人物的名字,还有剧中可能会出现的词语等等。这个词典需要经过反复的测试,通过分词的效果来看是否要添加新的字。

词典的格式:一行一个:

小欢喜

黄磊

方圆

海清

童文洁

陶虹

宋倩

王砚辉

季胜利

利用jieba分词:

jieba.load_userdict("F:\danmu_process\dic_xiaohuanxi.txt") #载入自建jieba字典

result_4=jieba.cut(result_2,cut_all=False)#jieba分词

1.4.2collections统计

在用jieba分词之后,就可以调用collections库来统计词语出现的次数了。

我们会发现分词的结果存在着特殊字符或者我们不想要的字词等,在用collections统计的时候,我们可以添加一个list存储我们不想被统计的字词等:

remove_words=[u'的',u'是',u'就',u'我',u'了',u'来',u'啊',u'这',u'吗',u'像',u'那',u'跟',u'呢',u'吧',u'都',

u'你',u'也',u'还',u'呀','怎么','说','在','他','又','两',

'.',' ',',','。','~','?','!','[',',',']','\\',':','...','…','~',

'1','6',

'xa0','??','??','??'] #自定义去除字库

for word in result_4:

if word not in remove_words: #如果觉得单字没有意义的话,可以再添加len(word)>1来只统计2个字以上的词语

word_list.append(word)

#统计词频率

word_counts=collections.Counter(word_list)

word_counts_top=word_counts.most_common(100)

1.4.3 wordcloud词云生成

接下来就是词云生成和展示的部分了:

wordcloud生成词云,通过调用matplotlib进行图像处理。wordcloud还能根据自定义背景图案更改字的颜色。

mask=numpy.array(Image.open("F:\\danmu_process\\background.jpg"))

wc=wordcloud.WordCloud(

font_path='C:\\Windows\\Fonts\\simhei.ttf',#设置字体格式

mask=mask,#设置背景图

max_words=75,#最多显示词数

max_font_size=110, #字体最大值

background_color='white',

prefer_horizontal=0.9#默认就是0.9,可以不写。如果要全部横向显示,就写=1

)

#从字典生成词云

wc.generate_from_frequencies(word_counts)

#颜色方案建立

image_colors=wordcloud.ImageColorGenerator(mask)

#将词云颜色设置为背景图方案

wc.recolor(color_func=image_colors)

#显示词云

plt.imshow(wc)

#关闭坐标轴

plt.axis('off')

#显示

plt.show()

选择的背景图案:

a9b4711472454eef680c35040ffcdc3d.png1.4.4最后的效果展示:

4dd52081e62718ac222d9e0a2dbf2696.png1.4.6 巴拉巴拉

弹幕爬取和弹幕词云的简单制作就告一段落了。发现写博客也算是复习了一波了。以前写的代码用完了也就完事了,到最后变成代码每年的量也挺多,但是回忆起来又觉得好像也没做啥。还是得努力找工作啊害。白白。

企鹅弹幕提取并制作关键词云4相关教程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值