8. 数据存储,针对列表中的每一条数据,我们直接使用open()函数,写入到txt文档
for comment in comments_list:
with open(r"哆啦A梦:伴我同行2.txt",“a”,encoding = “utf-8”) as f :
f.write(comment + “\n”)
最终效果如下:
词云图制作流程
很多同学不会制作词云图,借此机会,我这里写一套详细的流程,大家照猫画虎
就行。
绘制词云图的详细步骤如下:
-
① 导入相关库;
-
② 读取文本文件,使用jieba库动态修改词典;
-
③ 使用jieba库中的lcut()方法进行分词;
-
④ 读取停用词,添加额外停用词,并去除停用词;
-
⑤ 词频统计;
-
⑥ 绘制词云图
① 导入相关库
在这里,你需要什么库,就导入什么库。
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from imageio import imread
import warnings
warnings.filterwarnings(“ignore”)
② 读取文本文件,使用jieba库动态修改词典
这里with open()读取文本文件,我就不解释了。这里解释一下动态修改词典
。
sentence = “湖北广水第三条街,有一条狗”
list(jieba.cut(sentence))
结果如下:
针对上述切分结果,如果我们想把“湖北广水”和“第三条街”都当成一个完整词,而不切分开,怎么办呢?此时,就需要借助add_word()方法,动态修改词典。
sentence = “湖北广水第三条街,有一条狗”
jieba.add_word(“湖北广水”)
jieba.add_word(“有一条狗”)
list(jieba.cut(sentence))
结果如下:
总结:
-
jieba.add_word()方法,只能一个个动态添加某个词语。
-
假如我们需要动态添加多个词语的时候,就需要使用jieba.load_userdict()方法。也就是说:将所有的自定义词语,放到一个文本中,然后使用该方法,一次性动态修改词典集。
有了上述基础,我们直接读取文本后,动态修改词典。
with open(r"哆啦A梦:伴我同行2.txt",encoding=“utf-8”) as f:
txt = f.read()
txt = txt.split()
jieba.add_word(“哆啦A梦”)
jieba.add_word(“大雄”)
③ 使用jieba库中的lcut()方法进行分词
短短的一行代码,很简单。
data_cut = [jieba.lcut(x) for x in txt]
④ 读取停用词,添加额外停用词,并去除停用词
读取停用词,采用split()函数切分后,会得到一个停用词列表
。接着,采用+号
将额外停用词,添加到列表中即可。
读取停用词
with open(r"stoplist.txt",encoding=“utf-8”) as f:
stop = f.read()
stop = stop.split()
额外添加停用词,这里我们只添加了一个空格
stop = [" "] + stop
去除停用词
s_data_cut = pd.Series(data_cut)
all_words_after = s_data_cut.apply(lambda x:[i for i in x if i not in stop])
⑤ 词频统计
这里注意series中value_counts()的使用。
all_words = []
for i in all_words_after:
all_words.extend(i)
word_count = pd.Series(all_words).value_counts()
⑥ 绘制词云图
1、读取背景图片
back_picture = imread(r"aixin.jpg")
一、Python所有方向的学习路线
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python必备开发工具
工具都帮大家整理好了,安装就可直接上手!
三、最新Python学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、Python视频合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
六、面试宝典
简历模板
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!