Python jieba分词知识整合
文章目录
说明
本文文章没有代码层级的内容,均是根据作者本人最近了解下来的情况,在此做一个关于结巴分词的文章的整理,便于之后查阅相关资料方便
Jieba安装说明
这是最基础的,各篇jieba相关的介绍文章均有提及
对于python2.X版本,可以使用easy_install jieba,或者pip install jieba 进行安装
对于python3.X版本,可以使用pip3 install jieba进行安装
Jieba 分词原理介绍
介绍使用Python jieba进行分词的原理及实现
做分词,可以了解一下你所使用的分词工具进行分词的原理,这样便于你更好地使用该分词工具,否则你需要优化分词效果时会感觉到困难,中文分词原理可分为:
- 基于规则的方法:基于字典、词库的匹配方法
- 基于统计的方法:基于词频度统计的分词方法
- 基于知识理解的分词方法[由于汉语的语言复杂性,该方法还处于实验阶段]
相关文章:
hello_echo的博客《jieba分词原理》,介绍的较简单,详细可参考下面两篇文章
狮子座明仔的博客《中文分词原理和实现》,这篇对各种分词算法原理均作了较详细的介绍
伏草惟存的博客《结巴中文分词源码分析》,这篇同第一篇,不过对jieba的分词原理和算法介绍更为详细,可着重理解
Jieba 分词实现
在浏览了很多片文章之后,觉得伏草惟存整理的较为全面,我觉得看了他的整理的《jieba资料汇编》系列文章之后就可以较为全面的了解jieba的使用方法了,文章分了三部分:
《结巴中文分词官方文档分析》,包含了:
结巴中文分词:基于Python的中文分词
jieba分词特点
jieba安装说明
jieba主要功能:
-分词
-添加自定义词典
-自定义词典用法示例
-调整自定义词典
-提取关键词
-基于TF-IDF算法关键词抽取
-基于TextRank关键词抽取
-词性标注
-并行分词
-Tokenize:返回词语在原文起止位置
-ChineseAnalyser for whoosh 搜索引擎
-命令行分词其他语言实现
Jieba Java版、C++版、Node.js版、Erlang版、R版、iOS版、PHP版、.NET版(C#)、Go版
系统集成
Solr系统集成
分词遇到的常见问题
《结巴中文分词源码分析》,包含了中文分词的原理和Jieba分词源码介绍:
中文分词的原理
中文分词的特点
中文分词的难点
汉语分词方法结巴中文分词介绍(详见篇一)
结巴分词算法思想
结巴分词步骤
前缀字典
DAG
基于词频最大切分组合
未登录词问题
HMM
结巴 HMM 分析《结巴中文分词基本操作》,这部分是对结巴中文分词官方文档分析》中所提到jieba主要功能的操作代码实现,内容同jieba功能
适用于Python的其他语言库
除了jieba之外,还有其他的中文分词语言库可以使用,大家可以看一看 [ Python分词库 ],其中有各种分词库,可以更具需要学习使用。