基于统计的“的”、“地”、“得”填空

本文实现在空白处自动填入“的”、“地”、“得”
语料库为98年人民日报语料
用待填词前后的词性组合作为特征可分为三大类
 类I 通过词性组合可以明确判断待填词 详见”I.txt“文件
待选字 的 地 得
词性组合个数 626 18 3
 类II 词性组合不可以明确判断待填词,需要在两种或三种待填词中选择一种
待选“的、地” 72个。
待选“的、得” 37个。
待选 “的、地、得” 22个。
该类进一步分为两类:
 (1)词性组合与某一待填词共现次数只有1次或几次 详见”的地_detail.txt”、
”的得_detail.txt”、”的地得_detail.txt”文件
将低频(词性组合,待填词)与词语绑定。
 (2)词性组合与各待填词共现次数基本相同详见 ““,”“,”“文件夹
统计前后缀高频中文词语,用它们进行判定
待选字 的地 的得 的地得
词性组合个数 9 4 4
其他无法判定的,只能一个个地绑定

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值