中文分词技术

本文详细介绍了中文分词技术,包括查字典法、统计语言模型分词和基于规则的分词方法,讨论了每种方法的优缺点,并指出中文分词面临的歧义处理和未登录词识别两大挑战。
摘要由CSDN通过智能技术生成
中文分词技术
一、中文分词技术
1.中文分词 :上一篇博文我们谈到利用统计语言模型进行自然语言处理,而这些 语言模型主要是建立在词的基础上 的,因为词是表达语义的最小单位。对于西方拼音来讲,词之间有明确的分界符,统计和使用语言模型非常直接,如I love China very much. 但是对于中文来说,由于词之间没有明确的分界符,因此,首先需要对句子进行分词,才能做进一步的自然语言处理。
2.分词的一致性问题
    语料库关于分词的一致性大致包含两方面的内容:一致性1在保持语义同一性的前提下,一个结构体在语料库中的分合是否始终一致(例如:“猪肉”是否始终保持一个整体,或者始终分开);一致性2与某个结构体具有相同结构类型的其他一切结构体在语料库中的分合是否与该结构体始终一致(例如:“牛肉”与“猪肉”的结构类型完全相同,“牛肉”是否跟随了“猪肉”的分合状态)。
3.词的颗粒度和层次
二、中文分词方法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值