来源:Python爬虫与数据挖掘
前言
大家好,今天我们来看看分词。我们从之前学习过的wordcloud可以得知它只能进行英文分词,中文暂不支持,这也正是它美中不足的地方,但是有个模块正好弥补了这一点,它就是----jieba,中文名结巴,没错,你没听错也没看错,就是结巴。
一、jieba的使用
1.安装
jieba的安装不管在哪个地方安装都是一个老大难的问题,这也真是让小编头痛欲裂,幸好小编昨天下好了(花了一天,不好意思说出口)。。
下载好后,我们解压它,在文件主目录中按住shift键然后右击选择‘在此处打开命令窗口’,然后输入命令:
python setup.py install
安装即可,可以看到安装的版本信息:
2.jieba的分词模式
一、精确模式
它可以将结果十分精确分开,不存在多余的词。
常用函数:lcut(str) 、 cut(str)
比如我随便找一段话进行拆分:
import jieba
aa=jieba.cut('任性的90后boy')
这样我们就得到了aa这样一个生成器序列,然后我们将它遍历即可得到最终结果:
如果不想让它换行显示,想让它在一行显示并且能看到效果的话,可以这样做:
很显然,我的关键字太少,导致它的效果不是很明显,下面增加关键字: