中文分词技术

最新推荐文章于 2020-12-10 11:41:13 发布

裂缝中的阳光JDG

最新推荐文章于 2020-12-10 11:41:13 发布

阅读量3.3k

点赞数

分类专栏：自然语言识别研究文章标签：自然语言语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012637501/article/details/42581607

版权

本文详细介绍了中文分词技术，包括查字典法、统计语言模型分词和基于规则的分词方法，讨论了每种方法的优缺点，并指出中文分词面临的歧义处理和未登录词识别两大挑战。

摘要由CSDN通过智能技术生成

中文分词技术

转载请表明出处：http://blog.csdn.net/u012637501 (嵌入式_小J的天空)

一、中文分词技术

1.中文分词：上一篇博文我们谈到利用统计语言模型进行自然语言处理，而这些语言模型主要是建立在词的基础上的，因为词是表达语义的最小单位。对于西方拼音来讲，词之间有明确的分界符，统计和使用语言模型非常直接,如I love China very much. 但是对于中文来说，由于词之间没有明确的分界符，因此，首先需要对句子进行分词，才能做进一步的自然语言处理。

2.分词的一致性问题

语料库关于分词的一致性大致包含两方面的内容：一致性１：在保持语义同一性的前提下，一个结构体在语料库中的分合是否始终一致（例如：“猪肉”是否始终保持一个整体，或者始终分开）；一致性２：与某个结构体具有相同结构类型的其他一切结构体在语料库中的分合是否与该结构体始终一致（例如：“牛肉”与“猪肉”的结构类型完全相同，“牛肉”是否跟随了“猪肉”的分合状态）。

3.词的颗粒度和层次

二、中文分词方法

最低0.47元/天解锁文章

裂缝中的阳光JDG

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。