Python中的中文分词神器——jieba
介绍
如果你曾经在处理中文文本时,也许会遇到中文分词的需求,jieba就是一款不可错过的工具。
jieba
是目前最好的 Python 中文分词库,它具有高效、简单和可定制等优点,适合各种规模的文本分词任务。
安装
在安装 jieba
之前,需要先确保已经安装了 Python 开发环境和 pip 工具(如果已经安装过了,可以跳过该步骤)。
使用 pip 直接安装 jieba:
pip install jieba
如果你已经克隆了 jieba 代码,可以运行 setup.py 进行安装:
python3 setup.py install
使用
基本分词
使用 jieba.cut
方法对原始文本进行分词,得到的是一个可迭代的分词结果。
import jieba
seg_list = jieba.cut("我来到北京清华大学"