精华笔记（结巴分词和词云）

最新推荐文章于 2021-12-12 11:01:17 发布

杰益

最新推荐文章于 2021-12-12 11:01:17 发布

阅读量472

点赞数

分类专栏： Python 文章标签：数据可视化 python

本文链接：https://blog.csdn.net/qq_43109064/article/details/108218878

版权

Python 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

jieba分词笔记

jieba库分词的三种模式∶

精准模式︰把文本精准地分开，不存在冗余﹔
全模式∶把文中所有可能的词语都扫描出来，存在冗余﹔
搜索引擎模式︰在精准模式的基础上，再次对长词进行切分。

分词的常见函数及参数说明

jieba.cut(sentence, cut_all=False,HMM=True) : sentence表示需要分词的句子，cut_all
表示是否采用全模式，HMM表示是否使用HMM（隐马尔可夫模型）模型;
jieba.cut_for_search(sentence,HMM=True): sentence表示需要分词的句子，HMM表示
是否使用HMM模型，该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细;

jieba.cut(方法和jieba.cut_for_search()方法返回的结果都是可迭代对象，可使用for循环获
取分词后得到的每一个词语，此外，jieba.lcut()和jieba.lcut_for_search()效果分别和
jieba.cut()和jieba.cut_for_search()效果类似，直接返回列表;
add_word(word,freq=None, tag=None)和del_word(word)可在程序中动态修改词典;

WordCloud

生成词云的步骤

1.创建wordcloud对象，设定基本信息；
2.调用generate)方法生成词云;
3.保存或显示词云图。

WordCloud关键方法及其参数说明

1.WordCloud(font_path=None,width=400,height=200,margin=2,mask=None,**max_**words=200,min_font_size=4, stopwords=None,background_color=‘black’, max_font_size=None, font_step=1)

参数说明：

font_path :字体路径，默认不支持中文，可通过该参数指定字体，支持OTF和TITF格式;
width、height:画布的宽度和高度，单位为像素;
margin:文字之间的边距;
mask:指定图片的形状，忽略白色部分，通常为ndarray ;
max_words:最多显示的词的数量，默认为200 ;
min_font_size、max_font_size∶最小字体大小、最大字体大小；
background_color :词云图的背景颜色，默认为黑色
font_step：字体大小增加步长，默认为1

2.generate ( text):根据文本生成词云图，返回当前对象本身;
3.to_image（）：将词云对象转化为图片;
4.to_file(文件名)∶将词云对象转化为文件;
5.to_array（）∶将词云对象转化为数组。

杰益

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
精华笔记（结巴分词和词云）

jieba分词笔记jieba库分词的三种模式∶精准模式︰把文本精准地分开，不存在冗余﹔全模式∶把文中所有可能的词语都扫描出来，存在冗余﹔搜索引擎模式︰在精准模式的基础上，再次对长词进行切分。分词的常见函数及参数说明jieba.cut(sentence, cut_all=False,HMM=True) : sentence表示需要分词的句子，cut_all表示是否采用全模式，HMM表示是否使用HMM（隐马尔可夫模型）模型;jieba.cut_for_search(sentence,
复制链接

扫一扫