本文实现在空白处自动填入“的”、“地”、“得”
语料库为98年人民日报语料
用待填词前后的词性组合作为特征可分为三大类
类I 通过词性组合可以明确判断待填词 详见”I.txt“文件
待选字 的 地 得
词性组合个数 626 18 3
类II 词性组合不可以明确判断待填词,需要在两种或三种待填词中选择一种
待选“的、地” 72个。
待选“的、得” 37个。
待选 “的、地、得” 22个。
该类进一步分为两类:
(1)词性组合与某一待填词共现次数只有1次或几次 详见”的地_detail.txt”、
”的得_detail.txt”、”的地得_detail.txt”文件
将低频(词性组合,待填词)与词语绑定。
(2)词性组合与各待填词共现次数基本相同详见 ““,”“,”“文件夹
统计前后缀高频中文词语,用它们进行判定
待选字 的地 的得 的地得
词性组合个数 9 4 4
其他无法判定的,只能一个个地绑定
基于统计的“的”、“地”、“得”填空
最新推荐文章于 2019-01-26 14:56:00 发布