k-gram 拼写校正 java_拼写纠错-基于lucene-ngram实现拼写纠错

拼写纠错功能

本文基于lucene6.1中的spellchcker编写的使用示例,并介绍功能实现流程,实现类似以下百度中的纠错

Image.png

首先我们要有一份词典数据,作为正确的词,供lucene建立索引,词典可参考file/dictionary.txt文件格式

1. INDEX_STORE_DIR倒排索引存储路径

Analyzer analyzer = new StandardAnalyzer();
IndexWriterConfig config = new IndexWriterConfig(analyzer); Directory directory = FSDirectory.open(Paths.get(INDEX_STORE_DIR));

final SpellChecker sp = new SpellChecker(directory, new NGramDistance()); BufferedReader reader = Files.newBufferedReader(Paths.get(DIC_STORE_DIR), Charset.forName("gbk")); sp.indexDictionary(new PlainTextDictionary(reader), config, true);

以Today为例,看一下lucene索引里存储了怎样的数据        至于n的取值,参考以下两个方法,l为词的长度    `` private static int getMin(int l) { if (l > 5) { return 3; } if (l == 5) { return 2; } return 1; }

private static int getMax(int l) {

if (l > 5) {

return 4;

}

if (l == 5) {

return 3;

}

return 2;

}

``

构造Document 首先Field f = new StringField(F_WORD, text, Field.Store.YES);会创建word字段,保存“Today”词原值,用于查询时返回    其次构建gram{getMin<=n<=getMax}字段,例如n=2时,构建的gram2字段存储的值为To,od,da,ay,当然若是单词开头还会构建start2字段取值为To,单词结尾还会构建end2字段取值ay      单词Today(2<=n<=3)索引中的存储内容如下:

Filed | Values

--------------------------------------------

word | Today

start2 | To

ngram2 | To,od,da,ay end2 | ay start3 | Tod ngram3 | Tod,oda,day end3 | day

3. 测试

以“Todey”为例介绍检索过程    检索时同样会生成Todey的所有ngram片段,最终构造的query如下 (start2:To)^2.0 (end2:ey)^1.0 gram2:To gram2:od gram2:de gram2:ey (start3:Tod)^2.0 (end3:dey)^1.0 gram3:Tod gram3:ode gram3:dey        召回所有结果后,会计算召回的单词与Todey的ngram-distance,若大于等于DEFAULT_ACCURACY = 0.5f精度才进行返回,精度可以通过suggestSimilar(String word, int numSug, float accuracy)方法传入自定义的取值

最终返回结果:Today,Tomorrow

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值