1.jieba简介
在自然语言处理任务时中文文本需要通过分词获得单个的词语,这个时候就需要用到中文分词工具jieba
jieba分词是一个开源项目,地址为github.com/fxsjy/jieba
它在分词准确度和速度方面均表现不错。
2.jieba的安装
- 全自动安装
pip install jieba / pip3 install jieba
2.半自动安装
- 先下载pypi.python.org/pypi/jieba/
- 解压后运行
python setup.py install
3.手动安装:
- 将 jieba 的整个目录放置于python的site-packages 目录中
3.jieba的分词原理分析
- 初始化。加载词典文件,获取每个词语和它出现的词数
- 切分短语。利用正则,将文本切分为一个个语句,之后对语句进行分词
- 构建DAG。通过字符串匹配,构建所有可能的分词情况的有向无环图,也就是DAG
- 构建节点最大路径概率,以及结束位置。计算每个汉字节点到语句结尾的所有路径中的最大概率