Python爬取《哆啦A梦-伴我同行2》影评,这部的寓意是啥?词云来剧透!(1)

本文介绍了如何使用Python的jieba库和open()函数处理文本数据,动态修改词典,进行分词,并详细步骤说明了如何制作词云图,包括导入库、读取文本、分词、去除停用词、词频统计和绘制词云的过程。
摘要由CSDN通过智能技术生成

8. 数据存储,针对列表中的每一条数据,我们直接使用open()函数,写入到txt文档

for comment in comments_list:

with open(r"哆啦A梦:伴我同行2.txt",“a”,encoding = “utf-8”) as f :

f.write(comment + “\n”)

最终效果如下:

在这里插入图片描述

词云图制作流程


很多同学不会制作词云图,借此机会,我这里写一套详细的流程,大家照猫画虎就行。

绘制词云图的详细步骤如下:

  • ① 导入相关库;

  • ② 读取文本文件,使用jieba库动态修改词典;

  • ③ 使用jieba库中的lcut()方法进行分词;

  • ④ 读取停用词,添加额外停用词,并去除停用词;

  • ⑤ 词频统计;

  • ⑥ 绘制词云图

① 导入相关库

在这里,你需要什么库,就导入什么库。

import jieba

from wordcloud import WordCloud

import matplotlib.pyplot as plt

from imageio import imread

import warnings

warnings.filterwarnings(“ignore”)

② 读取文本文件,使用jieba库动态修改词典

这里with open()读取文本文件,我就不解释了。这里解释一下动态修改词典

sentence = “湖北广水第三条街,有一条狗”

list(jieba.cut(sentence))

结果如下:

在这里插入图片描述

针对上述切分结果,如果我们想把“湖北广水”和“第三条街”都当成一个完整词,而不切分开,怎么办呢?此时,就需要借助add_word()方法,动态修改词典。

sentence = “湖北广水第三条街,有一条狗”

jieba.add_word(“湖北广水”)

jieba.add_word(“有一条狗”)

list(jieba.cut(sentence))

结果如下:

在这里插入图片描述

总结:

  • jieba.add_word()方法,只能一个个动态添加某个词语。

  • 假如我们需要动态添加多个词语的时候,就需要使用jieba.load_userdict()方法。也就是说:将所有的自定义词语,放到一个文本中,然后使用该方法,一次性动态修改词典集。

有了上述基础,我们直接读取文本后,动态修改词典。

with open(r"哆啦A梦:伴我同行2.txt",encoding=“utf-8”) as f:

txt = f.read()

txt = txt.split()

jieba.add_word(“哆啦A梦”)

jieba.add_word(“大雄”)

③ 使用jieba库中的lcut()方法进行分词

短短的一行代码,很简单。

data_cut = [jieba.lcut(x) for x in txt]

④ 读取停用词,添加额外停用词,并去除停用词

读取停用词,采用split()函数切分后,会得到一个停用词列表。接着,采用+号将额外停用词,添加到列表中即可。

读取停用词

with open(r"stoplist.txt",encoding=“utf-8”) as f:

stop = f.read()

stop = stop.split()

额外添加停用词,这里我们只添加了一个空格

stop = [" "] + stop

去除停用词

s_data_cut = pd.Series(data_cut)

all_words_after = s_data_cut.apply(lambda x:[i for i in x if i not in stop])

⑤ 词频统计

这里注意series中value_counts()的使用。

all_words = []

for i in all_words_after:

all_words.extend(i)

word_count = pd.Series(all_words).value_counts()

⑥ 绘制词云图

1、读取背景图片

back_picture = imread(r"aixin.jpg")

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

img
img

二、Python必备开发工具

工具都帮大家整理好了,安装就可直接上手!img

三、最新Python学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

img

四、Python视频合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

img

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。img

六、面试宝典

在这里插入图片描述

在这里插入图片描述

简历模板在这里插入图片描述

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里无偿获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值