对于中文搜索引擎来说输入自动检查纠错功能是指:用户在输入关键词进行搜索之后,如果搜索引擎在返回结果中计算出与此关键词相似的另一形式(如词组中出现同音不同字、或者某一错别字现象)得到大量的搜索结果,用户将会在搜索结果页面看到系统提供的推测到的关键词项。使用自动纠错后,即使用户不小心输入错误,在很大程度上也能够方便地得到正确查询词的提示,在很大程度上方便了用户的使用。并保证了每次的查准率。
一、利用词库的方式
思想:
研究中引入了关键词加权计算方法
将初步统计语言模型得出的纠错检查结果再次计算比较
最终得出优化的纠错结果。
步骤:
建立查询词词库,对查询日志的查询词进行统计,将平均每天查询次数超过阈值的查询词存储于所述查询词词库中;
对用户输入的新查询词,首先与所述查询词词库中查询词进行匹配,若完全匹配,则不作处理;若未完全匹配,则查找和该词最近似查询词,若查找成功,则将该查询词词库中的近似查询词返回给用户以校验;若查找失败,则不作处理。
二、通过拼音的方式
(1)通过相似拼音纠错
搜索引擎把这些字还原成拼音,用一个拼音相同的已知的搜索词代替。
这是一种众所周知的纠错策略,但是,当输错的字是多音字,特别是有多个这样的错误输入时,所有的搜索引擎都尽量绕开这个问题,或者仅使用最常用的那些音去纠错。 因为要考虑所有可能的拼音组合,在极端情况下会导致指数爆炸! 例如美团的实现(枚举多音字全排列)。
(2)基于自动机的算法可以完美解决这个指数爆炸问题
- 这是自动机应用的又一个绝佳范例,作为演示,这个页面只收录了 800万 条 搜索词+词频,数据也不太干净
- 该算法全部在内存中运行,使用了 293M 内存,这个数据量,如果用传统方法暴力实现,并且达到这个性能,需要 几十G 的内存
- 暴力方法是 Query 越长越可怕,该算法则是 Query 越长,优势越大
- 纠错耗时仅供参考(单核虚拟云主机: Xeon E5-2430 2.20GHz + RAM:1.5G)
(3)这个算法也可以用来解决用户输入预测(智能提示)功能
用户只输入Query开头部分,就自动提示出整个Query,例如用户输入举头望,就提示出举头望明月。就像现在各种搜索引擎做的那样。
(4)基于编辑距离的纠错
在已知的搜索词中寻找编辑距离与用户 Query 最小的词,使用我的算法也可以高效解决(还没做演示页面)
三、二元语言模型与字典分词相结合的方法
由于每个项目的输入汉字串基本上是有范围的,否则即使搜也搜不到内容,所以这种情况下语料库的范围相对稳定些,所以这里采用2-Gram即二元语言模型与字典分词相结合的方法;
思路:
对语料库进行分词处理 —> 计算二元词条出现概率(在语料库的样本下,用词条出现的频率代替) —> 对待分析的汉字串分词并找出最大连续字符串和第二大连续字符串 —>利用最大和第二大连续字符串与语料库的影片名称匹配 —> 部分匹配则现实拼写有误并返回更正的字符串(所以字典很重要)
不多说,看代码吧,代码请先clone代码,代码地址:
https://code.csdn.net/helihongzhizhuo/wordfind
clone下来后 运行下测试类 TestWordproofread 中下面的测试方法即可
@Test
public void testwordproofread() {
String input = "自动QUKUANJI";
SimpleDateFormat sdf = new SimpleDateFormat("HH:mm:ss");
String startInitTime = sdf.format(new Date());
System.out.println(startInitTime+" ---start initializing work---");
// ChineseWordProofread cwp = new ChineseWordProofread(argu1,argu2);
String endInitTime = sdf.format(new Date());
System.out.println(endInitTime+" ---end initializing work---");
chineseWordProofreadAnsj.proofreadAndSuggest(input);
}