在文本处理时,英文文本的分词一直比中文文本要好处理许多。因为英文文本只需要通过空格就可以分割,而中文的词语往往就很难从句子中分离出来。这种时候我们往往需要一个“词典”来实现分词,而寻找“词典”又是件非常麻烦的事。
不过, python 强大的第三方模块中早有了解决方案。在 PyPI 上面搜索“中文分词”,第一个出现的就是 jieba 模块。其实 jieba 模块的官方文档已经足够详细了,所以这里就对其进行一定的精简,只介绍几个常用的函数。
1. 使用 pip 安装 jieba 模块
在第一次使用时,我们需要先使用 pip 指令安装 jieba 这个第三方模块:
pip install jieba
2. lcut() – 最常用的分割模式
lcut() 这个函数只有简单的两个参数: lcut(s, cut_all=False) ,而它在切分后会返回一个字符串。其中 s 是传入的中文字符串,而 cut_all 这个参数默认为 False ,默认为“精确模式”,而如果设置为 True ,就是“全模式”。那么这两个模式有什么区别呢?我们可以查看下官方文档中的示例:
import jieba
seg_list = jieba.lcut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.lcut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/