摘要
最近想研究文本挖掘,所以这几天研究了一下Python的结巴分词扩展包,今天给大家分享分享我理解和使用的结巴分词,还请大家多多指导,有最近研究文本挖掘的也可以一起研究探讨。
ps:网上现在其实jieba分词有很多,而且大多讲的也差不多,但还是想写点,跟别的很多地方有一样的,大家可以都看看。
首先,结巴分词包安装就比较简单了,下载安装包之后在cmd里面进入该文件夹,直接运行python setup.py install 就ok啦。
Python结巴分词网上一般会讲解它的八个点,但是我最近看了之后感觉前面的六个点可能用的多一点,所以就讲一讲前面六个点。
1.分词
分词一般使用jieba.cut()或者jieba.cut_for_search()这两个函数。
1.jieba.cut()函数有三个参数:
a.分词字符串
b.cut_all = True/False(使用全模式还是精准模式,默认为精准模式)
c.HMM参数用来控制是否使用HMM模型(这个参数我感觉一般不用)
2.jieba.cut_for_search()函数有两个参数:
a.分词字符串
b.是否使用HMM模型
这个很容易理解,大家对照着代码和输出结果看看就能懂了,如果有啥疑问,可以随时提出。