中文拼写检查一直以来都是研究中的难题,目前主要采用的是基于规则的方法和基于统计的方法,此外再增加人工校验的方式来提升效果。
基于规则的方法思想简单、易于实现,但是由于不能覆盖所有的错误现象,因而其查错纠错的能力极其有限。
基于统计的方法主要使用基于N元语法模型(N-Gram)的查询纠错技术,N-gram的优点是对在训练集测试集同分布的要求比较低、解释性强、原理清晰,但是对语料数目要求则非常高,而且无法利用好词语在句子中的上下文环境,不能捕获长距离的依赖。
那么如何更好的实现中文拼写纠错呢?
本方案主要分为三部分,包含建立规则字典、字词纠错检测模块、评价纠错模块。
1.建立规则字典
建立常用字字典、相似音字典、相似字字典,这些都可以从网上进行获取。
根据场景建立自定义词典,作为检测白名单。
基于搜索历史query简历词频表,将用户自定义词典也添加到词频表里。
根据历史搜索数据自定义困惑集,可用于后续直接纠正,提升最终纠正效果。