基于中文的搜索拼写纠错,大厂是如何实现的?

中文拼写检查一直以来都是研究中的难题,目前主要采用的是基于规则的方法和基于统计的方法,此外再增加人工校验的方式来提升效果。

基于规则的方法思想简单、易于实现,但是由于不能覆盖所有的错误现象,因而其查错纠错的能力极其有限。
基于统计的方法主要使用基于N元语法模型(N-Gram)的查询纠错技术,N-gram的优点是对在训练集测试集同分布的要求比较低、解释性强、原理清晰,但是对语料数目要求则非常高,而且无法利用好词语在句子中的上下文环境,不能捕获长距离的依赖。

那么如何更好的实现中文拼写纠错呢?
在这里插入图片描述

本方案主要分为三部分,包含建立规则字典、字词纠错检测模块、评价纠错模块。

1.建立规则字典

建立常用字字典、相似音字典、相似字字典,这些都可以从网上进行获取。

根据场景建立自定义词典,作为检测白名单。

基于搜索历史query简历词频表,将用户自定义词典也添加到词频表里。

根据历史搜索数据自定义困惑集,可用于后续直接纠正,提升最终纠正效果。

2.字词纠错检测模块

2.1 基于HanLP平台的
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值