汉语自动分词小结

最新推荐文章于 2024-09-15 15:29:29 发布

iteye_1436

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量116

点赞数

分类专栏：自然语言处理 NLP 文章标签：人工智能

自然语言处理 NLP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

中文分词存在的问题是分词规范（怎么才算是一个词）和歧义切分（交集型歧义：结合成且为结合|成、结|合成。组合型歧义：他站|起|身|来。他明天|起身|去北京。），以及未登录词，如中文名准确率较高，外文译名准确率很低，地名可以由词表解决，组织机构名词表可以解决部分。

分词方法总的分为基于词表和基于统计和规则。

正向最大匹配、逆向最大匹配法、双向扫描、逐词遍历法都是基于词表的。基于词表可以解决普通词汇分词问题，此外可以针对歧义切分，有N-最短路径（先基于词表粗分，由词构有向无环图，dijkstra贪心找最短路径，包含最优词序）、HMM隐马尔科夫（初始状态（词性）概率矩阵、状态转移矩阵（词性到词性）、从状态（词性）观察到输出符号（单词）的概率矩阵）、基于三元统计模型的分词、字构词。

未登录词有两类：新词或专业术语词（先词表，后人工）

实体名词和专有名词。这一类词的词次占8.7%,引起错误分词占59.2%,这类词是这机器翻译、信息检索、文本分类和信息提取的关键问题。主要专有名词问题和效果顺序：外国译名、中国人名、地名、组织机构名。解决方法：基于规则（专有名词库和人工归纳规则）和机器学习（基于HMM、最大熵、错误驱动）。

基于多特征的命名实体识别模型由词形上下文模型p（WC）、词性上下文模型P(TC)、实体词形模型、实体词性模型。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。