苏剑林新词发现
https://spaces.ac.cn/archives/6920
进一步解读
基于词典分词
- 原理:基于词典和AC自动机的快速分词
- 优缺点: 便于维护,容易适应领域
《新词发现的信息熵方法与实现》
- 算法介绍:https://spaces.ac.cn/archives/3491
- 原理:频数、凝固度、自由度;
《【中文分词系列】 2. 基于切分的新词发现》
- 算法介绍:https://spaces.ac.cn/archives/3913
- 原理:如果片段的凝固度低于一定程度时,这个片段就不可能成词
- 优缺点: 很快,结果显得粗糙; 为了得到更细粒度的词语(避免分出太多无效的长词),选择较大的α,比如α=10,但是这带来一个问题:一个词语中相邻两个字的凝固度不一定很大
《【中文分词系列】 5. 基于语言模型的无监督分词》
- 算法介绍:https://spaces.ac.cn/archives/3956
- 原理:一种完整的独立于其它文献的无监督分词方法,结合语言模型和贝叶斯概率 (类似概率公式进行计算, 算句子词成句概率,选最高的概率作为分词结果)
- 优缺点:好很强大,却又显得太过复杂(viterbi是瓶颈之一)
【中文分词系列】 7. 深度学习分词?只需一个词典!
- 算法介绍:https://spaces.ac.cn/archives/4245
- 原理: 类似于远程监督的逻辑,词典进行预标注作为训练数据,不过这里训练数据的标注逻辑有一些特殊处理。(采用词典随机拼接作为句子,进一步训练分词模型)