NLP中文分词知识梳理

中文分词开源工具ik,jieba优缺点优点:使用开源通用语料,综合全面,但缺乏专业词汇缺点:词汇时效方面,新词不及时识别行业结论实践证明,基于统计学习的分词工具要优于基于人工规则的分词工具评测结果表明,未登录词所造成的分词精度下降至少比分词歧义大5倍以上实验结果证明,字标注统计学习方法能够大幅提高未登录词的识别率难点1清晰地界定中文词汇: 如“科教兴国”切词成【科教兴国】和【科教】,【兴国】都符合“词”的含义羽毛球拍卖完了羽毛球 / 拍卖 / 完了 羽毛球拍 / 卖 / 完了交集型歧义组合型歧义希望你们再创新的业绩希望 / 你们 / 再 / 创 / 新 / 的 / 业绩希望 / 你们 / 再 / 创新 / 的 / 业绩未登录词的识别问题指没有被收录到分词词典里的词如人名、机构名、缩写词、新增词解决方案歧义问题未登录词问题“双向最大匹配”规则“分词后词总数最少”规则切分路径结果里有多少词,就罚多少分,每出现一个不成词的单字,就加罚一分,罚分最少的就是最优的分词结果。构建DAG利用动态规划计算 N-Gram切词构建DAG,利用统计语言模型+动态规划计算最大概率优点: 利用了“马尔科夫假设”考虑了词之间的影响根据数量:各种未登录词的分布1. 基于统计抽词2. 基于“凝固度”算法,剔除“紧密度”低的词,如“的飞机”3. 基于“自由度”信息熵算法,剔除“半个词”,如“意大”,“俄罗”评测准确率召回率F-Socre评估指标jieba分词原理1. 加载词典文件dict.txt到内存2. 根据内存中的词典构建待分词句子的DAG(有向无环图)3. 对于词典中未登录词,可以使用HMM模型的viterbi算法去识别,也可以通过参数设置跳过4. 已登录词和未登录词全部分词完毕后,使用动态规划寻找DAG的最大概率路径5. 最后输出分词结果HMM,CRF模型分词来识别未登录词HMM基本假设: 马尔可夫假设,每个节点(字)出现的概率只跟它前面的少数几个节点(字)有关。具体方法: 用字作为节点重新构成一个DAG,那么分词问题就转化成了字的分类问题。即:识别每个字的词位:BMESCRF:区别和联系:HMM只考虑了前一个隐藏状态和当前一个观察状态的影响,而忽略掉了之前和之后的状态。而CRF考虑充分学习全局的信息,刚好可以解决HMM的问题Word2vec含义:简单理解就是有一类模型可以将词转换成向量的形式,并且这个向量还保留了这个词的语义信息大量文本语料中以无监督的方式学习语义知识的一种模型而大火的BERT模型其本质可以看作是升级版的Word2vec

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值