目录
1、安装分词工具jieba、词云图库wordcloud
编程环境是Anaconda,需要安装jieba、wordcloud。
pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install wordcloud -i https://pypi.tuna.tsinghua.edu.cn/simple
注意需要升级pillow包,如果pillow版本过低,运行时会报错。
pip install --upgrade pillow -i https://pypi.tuna.tsinghua.edu.cn/simple
2、分词
tokenizer函数,接受一段文本,利用jieba分词工具,对文本进行语法分析,将文本从段落的形式转为词语的数组。
import jieba
import re
import json
def tokenizer(text):
regex = re.compile(r'[^\u4e00-\u9fa5aA-Za-z0-9]')
text = regex.sub(' ', text)
return [word for word in jieba.cut