中文分词算法总结

1 基于词典的分词算法

最大匹配分词算法:贪心算法。trie树,当到根节点时分词,开始查询下一个单词
正向(从左至右)匹配“他说的确实在理”,得出的结果为“他/说/的确/实在/理”。
反向最大匹配,则为“他/说/的/确实/在理”。
可见,词典分词虽然可以在O(n)时间对句子进行分词,但是效果很差,在实际情况中基本不使用此种方法。
考虑语义
得到所有可能分隔,选出最好的
ngram 语言模型判断
最短路径分词算法:先将所有词匹配出来,再寻找由词组成的最短路径
在这里插入图片描述
例如0-7的最短路径一定包含1-7的最短路径,因此可以用贪心算法求解

  1. Dijkstra算法求解最短路径。
  2. N-最短路径分词算法,在每一步保存最短的N条路径,并记录这些路径上当前节点的前驱,在最后求得最优解时回溯得到最短路径。该方法的准确率优于Dijkstra算法,但在时间和空间复杂度上都更大

基于NGram的分词算法
利用统计学规律。p(当前词|前n个词)概率

2.基于字的分词

相当于标注任务,对每个字给出B(Begin), I(Inside), O(Outside), E(End), S(Single)标记
生成式模型分词算法 主要有n-gram模型、HMM隐马尔可夫模型、朴素贝叶斯分类等。在分词中应用比较多的是n-gram模型和HMM模型。
判别式模型分词算法 主要有感知机、SVM支持向量机、CRF条件随机场、最大熵模型等。在分词中常用的有感知机模型和CRF模型
神经网络分词算法 主要为RNN,常用Bi-LSTM + CRF

3 数据结构

词典
词图:邻接矩阵,邻接表

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值