jieba 安装与使用
目录
一、安装 pip install jieba
原因分析
在下载python库的时候,由于国内网络原因,python包的下载速度非常慢,查看pip 文档,只要在 pip的时候控制超时即可, 具体参数为 --default-timeout=100, 后面的时间可以自己指定。
pip install --default-timeout=1000 ....
1 指定Scripts
更改路径到python安装目录下的Scripts文件夹下,输入pip install jieba,安装成功!
2 指定清华源
pip --default-timeout=100 install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba
3 指定豆瓣源
pip --default-timeout=100 install -i https://pypi.douban.com/simple jieba
出现在windows下使用pip安装出现Cannot unpack file xxx的问题。
添加认证
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn jieba
二、使用
1.三种模式:精确模式(将词语精确切开)、全模式(将所有可能的词语切开)、搜索引擎模式(对精确切开后的词语再次切分)
2.jieba.lcut(s)——精确模式切分,返回列表类型
jieba.lcut(s,cut_all=True)——全模式切分,返回列表类型
jieba.lcut_for_search(s)——搜索引擎模式切分,返回列表类型
jieba.add_word(w)——向分词词典添加新的词语
Wordcloud库安装与使用
一、安装:pip install wordcloud
二、使用
w = wordcloud.WordCloud()代表一个文本对应的词云
w.generate(txt)——向w中加载文本txt
w.to_file(name)——将词云输出为.png或.jpg
三、配置对象:
1 默认参数 :
width=200,height=400,
min_font_size=4最小字号,
max_font_size最大字号,
font_step=1,
font_path="xxx.ttc"默认为None ,
max_words最大单词数量,
stop_words排除词列表,
mask指定词云形状(需要配合imread()使用),
background_color="white"背景颜色
import wordcloud
c = wordcloud.WordCloud()
# test = wordcloud.WordCloud(width=1000,font_path="msyh.ttc",height=700)
2.加载词云文本
c.generate("wordcloud by Python")
# test.generate(" ".join(jieba.lcut(txt)))
3.输出词云文件
c.to_file("wordcloud.png")