中文分词之候选集的选取

本文探讨中文分词中候选集的选取过程,包括基本思路和具体步骤。首先,通过定义规则文件(rule.txt)来设定抽取规则,如'n n n'等。接着,构造符合这些规则的词组正则表达式,并读取分词文本内容进行匹配。最后,递归匹配文本并输出可能的候选词,为后续的过滤和完整性分析做准备。
摘要由CSDN通过智能技术生成

中文分词之候选集的选取

一、      基本思路:

·0. 之前讲到利用字典的分词,是因为字典的词组是有限的,单个的。但是候选词是可以由多个词组成。例如“Android/x  系统 /n  平台/n”,“蓝/n  牙/n”等。如果把这些词是连着出现在被爬虫爬下来的文章中,那么就很有必要把“Android系统 平台”,“蓝牙”作为整体的词语来理解了。即“把x n n”,”n n”组合在一起作为候选词,然后在后面会通过“候选集过滤”,“左右完整性分析”和“稳定性”来评估这个候选词是否有资格成为对象词。


1.   首先定义rule.txt,里面定义好抽取的规则

    n

n n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值