基于中文的搜索拼写纠错，大厂是如何实现的？

最新推荐文章于 2024-11-29 11:51:36 发布

我是药老

最新推荐文章于 2024-11-29 11:51:36 发布

阅读量1.1k

点赞数 1

分类专栏：药老算法文章标签：自然语言处理机器学习人工智能搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hqm_1994/article/details/117649441

版权

本文探讨了中文拼写纠错的实现，包括建立规则字典、基于HanLP和BERT的字词纠错检测，以及评价纠错模块。通过结合规则、统计方法和深度学习，提升纠错效果，最终达到提高搜索准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

中文拼写检查一直以来都是研究中的难题，目前主要采用的是基于规则的方法和基于统计的方法，此外再增加人工校验的方式来提升效果。

基于规则的方法思想简单、易于实现，但是由于不能覆盖所有的错误现象，因而其查错纠错的能力极其有限。
基于统计的方法主要使用基于N元语法模型（N-Gram）的查询纠错技术，N-gram的优点是对在训练集测试集同分布的要求比较低、解释性强、原理清晰，但是对语料数目要求则非常高，而且无法利用好词语在句子中的上下文环境，不能捕获长距离的依赖。

那么如何更好的实现中文拼写纠错呢？
在这里插入图片描述

本方案主要分为三部分，包含建立规则字典、字词纠错检测模块、评价纠错模块。

1.建立规则字典

建立常用字字典、相似音字典、相似字字典，这些都可以从网上进行获取。

根据场景建立自定义词典，作为检测白名单。

基于搜索历史query简历词频表，将用户自定义词典也添加到词频表里。

根据历史搜索数据自定义困惑集，可用于后续直接纠正，提升最终纠正效果。

2.字词纠错检测模块

2.1 基于HanLP平台的“错词检测模块

HanLP是一系列模型与算法组成的NLP工具包，由大快搜索主导并完全开源，目标是普及自然语言处理在生产环境中的应用。

Ha

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。