汉语自动分词小结

中文分词存在的问题是分词规范(怎么才算是一个词)和歧义切分(交集型歧义:结合成且为结合|成、结|合成。组合型歧义:他站|起|身|来。他明天|起身|去北京。),以及未登录词,如中文名准确率较高,外文译名准确率很低,地名可以由词表解决,组织机构名词表可以解决部分。

分词方法总的分为基于词表基于统计和规则

正向最大匹配、逆向最大匹配法、双向扫描、逐词遍历法都是基于词表的。基于词表可以解决普通词汇分词问题,此外可以针对歧义切分,有N-最短路径(先基于词表粗分,由词构有向无环图,dijkstra贪心找最短路径,包含最优词序)、HMM隐马尔科夫(初始状态(词性)概率矩阵、状态转移矩阵(词性到词性)、从状态(词性)观察到输出符号(单词)的概率矩阵)、基于三元统计模型的分词、字构词。

未登录词有两类:新词或专业术语词(先词表,后人工)

实体名词和专有名词。这一类词的词次占8.7%,引起错误分词占59.2%,这类词是这机器翻译、信息检索、文本分类和信息提取的关键问题。主要专有名词问题和效果顺序:外国译名、中国人名、地名、组织机构名。解决方法:基于规则(专有名词库和人工归纳规则)和机器学习(基于HMM、最大熵、错误驱动)。

基于多特征的命名实体识别模型由词形上下文模型p(WC)、词性上下文模型P(TC)、实体词形模型、实体词性模型。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值