为什么要分词?
- 词是语义表达的基本单位
- 英文词与词之间有空格
- 中文词与词之间无界限
分词原理
- 基于字典
- 机器学习:HMM、CRF
- 深度学习:Bi-LSTM+CRF
开源工具
- jieba:MIT协议(python)
- LTP:哈工大开源(C++)
- THUNLP:清华开源(C++)
分词工具--jieba分词
“结巴” 中文分词:做最好的python中文分词组件
三种分词模式:
1. 精确模式:适合文本分析(最常用)(本来应该分为那些就是那些)
例子:猿人/学是/一个/学习/python/的/网站
例子:猿人学/是/一个/学习/python/的/网站
2. 全模式:把句子中所有的可能的词都列出来(基本没啥用)
例子:猿人/人学/是/一个/学习/python/的/网站
3. 搜索引擎模式:把长词切分为短词,让搜索引擎提高召回率(建立搜索引擎的索引时用)
例子:猿人/学/是/一个/学习/python/的/网站
jieba特点: