学习笔记,仅供参考,有错必纠
文章目录
分词
分词原理简介
分词算法的分类
-
基于字符串的匹配
- 即扫描字符串,如果发现字符串的子串和词相同,就算匹配。
- 通常会加入一些启发式规则,比如正向/反向最大匹配,长词优先等
- 优点是速度块,但对歧义和未登录词处理不好
-
基于统计以及机器学习的分词方式
- 基于人工标注的词性和统计特征进行建模,并通过模型计算分词概率
- 常见的序列标注模型有HMM和CRF
- 这类分词算法能很好处理歧义和未登录词问题,效果比前一类效果好,但是需要大量的人工标注数据,分词速度也较慢
基于字符串匹配的分词算法原理
- 以现有的词典为基础进行匹配
- 最大匹配法:以设定的最大词长度为框架,取出其中最长的匹配词
- 例:“中华人民共和国”会被完整取出,而不会进一步被分词
- 最佳匹配法:按照词典中
- 最大匹配法:以设定的最大词长度为框架,取出其中最长的匹配词