一、中文分词的概念:
二、中文分词的方法:
三、中文分词的工具:jieba
https://github.com/fxsjy/jieba
- 特点
(1)支持三种分词模式:
【精确模式】试图将句子最精确地切开,适合文本分析;
【全模式】把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
【搜索引擎模式】在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
(2)支持繁体分词
(3)支持自定义词典
(4)MIT 授权协议
主要功能:
1、分词(要重点学习的)
2、添加自定义词典
3、关键词提取
4、词性标注
5、并行分词
6、返回词语在原文的起止位置
7、ChineseAnalyzer for Whoosh 搜索引擎
8、命令行分词