搜索引擎设计实用教程(2)-以百度为例

本文介绍了百度搜索引擎的拼写检查功能,通过分析发现,百度通过查字典判断用户输入是否有误,并使用拼音提示纠正错误。系统维护了一个同音词词典,当用户输入错误词汇时,会提供同音字作为提示。虽然存在一些限制,如对多音字的处理和对多子字符串查询的处理,但整体展示了百度在拼写检查上的工作原理。
摘要由CSDN通过智能技术生成

/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/

搜索引擎设计实用教程(2)-以百度为例
  之二:Spelling Checker拼写检查错误提示(以及拼音提示功能)
  
  中科院软件所 张俊林

  2005年11月


  拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是怎么实现这一功能的.
  我们分析拼写检查系统关注以下几个问题:
  (1)系统如何判断用户的输入是有可能发生错误的查询呢?
  (2)如果判断是可能错误的查询输入,如何提示正确的词汇呢?
  
  那么百度是如何做的呢?百度判断用户输入是否错误的标准,我觉得应该是查字典,如果发现字典里面不包含这个词汇,那么很有可能是个错误的输入,此时启动错误提示功能,这个很好判断,因为如果是一个正常词汇的话,百度一般不会有错误提示,而你故意输入一个词典不可能包含的所谓词汇,此时百度一般会提示你正确的检索词汇.
  那么百度是怎么提示正确词汇的呢?很明显是通过拼音的方式,比如我输入查询” 制才”,百度提供的提示词汇为: “:制裁 质材 纸材”,都是同音字.所以百度必然维持着一个同音词词典,里面保留着同音词信息,比如可能包含着下面这条词条: “ zhi cai à制裁,质材,纸材”,另外还有一个标注拼音程序,现在能够看到的基本流程是: 用户输入” 制才”,查词典,发现没有这个词汇,OK,启动标注拼音程序,将” 制才”标注为拼音”zhi cai”,然后查找同音词词典,发现同音词” 制裁,质材,纸材”,那么提示用户可能的正确拼写.
  整体流程看起来很简单,但是还有一些遗留的小问题,比如是否将词表里面所有同音词都作为用户的提示信息呢?比如 某个拼音有10个同音词,是否都输出呢?百度并没有将所有同音词都输出而是选择一定筛选标准,选择其中几个输出.怎么证明这一点?我们看看拼音”liu li”的同音词,紫光输入法提示同音词汇有”

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值