jieba分词笔记
jieba库分词的三种模式∶
- 精准模式︰把文本精准地分开,不存在冗余﹔
- 全模式∶把文中所有可能的词语都扫描出来,存在冗余﹔
- 搜索引擎模式︰在精准模式的基础上,再次对长词进行切分。
分词的常见函数及参数说明
-
jieba.cut(sentence, cut_all=False,HMM=True) : sentence表示需要分词的句子,cut_all
表示是否采用全模式,HMM表示是否使用HMM(隐马尔可夫模型)模型; -
jieba.cut_for_search(sentence,HMM=True): sentence表示需要分词的句子,HMM表示
是否使用HMM模型,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细;jieba.cut(方法和jieba.cut_for_search()方法返回的结果都是可迭代对象,可使用for循环获
取分词后得到的每一个词语,此外,jieba.lcut()和jieba.lcut_for_search()效果分别和
jieba.cut()和jieba.cut_for_search()效果类似,直接返回列表; -
add_word(word,freq=None, tag=None)和del_word(word)可在程序中动态修改词典;
WordCloud
生成词云的步骤
1.创建wordcloud对象,设定基本信息;
2.调用generate)方法生成词云;
3.保存或显示词云图。
WordCloud关键方法及其参数说明
1.WordCloud(font_path=None,width=400,height=200,margin=2,mask=None,**max_**words=200,min_font_size=4, stopwords=None,background_color=‘black’, max_font_size=None, font_step=1)
参数说明:
- font_path :字体路径,默认不支持中文,可通过该参数指定字体,支持OTF和TITF格式;
- width、height:画布的宽度和高度,单位为像素;
- margin:文字之间的边距;
- mask:指定图片的形状,忽略白色部分,通常为ndarray ;
- max_words:最多显示的词的数量,默认为200 ;
- min_font_size、max_font_size∶最小字体大小、最大字体大小;
- background_color :词云图的背景颜色,默认为黑色
- font_step:字体大小增加步长,默认为1
2.generate ( text):根据文本生成词云图,返回当前对象本身;
3.to_image():将词云对象转化为图片;
4.to_file(文件名)∶将词云对象转化为文件;
5.to_array()∶将词云对象转化为数组。