文章1,基于搜索引擎的中文关键字纠错系统--by 任腾飞 原帖:http://wenku.baidu.com/view/3bb055170b4e767f5acfcefa.html
一 概述:
1 基于搜索引擎的中文关键字纠错系统是基于当前流行的搜索引擎所设计的一个用户帮助系统,它的主要功能是发现用户使用搜索引擎在输入关键字时可能发生的错误,并给向用户推荐可能正确的关键字。纠错系统使用分词与纠错并行处理的方法,可以纠正中文输入中可能出现的选字错误,注音错误和字形错误等常见错误。
2
纠错系统主要由训练模块,纠错模块和学习模块三个部分组成。
训练模块使用一个语料库,训练成字符树的存储结构,供纠错模块查询。并为保证字符树能够完整地读入内存,首先使用 hash 的方法将语料库中的词条分类。
纠错模块通过分词,纠错和查找字符树,对用户的输入进行处理,并对可能有错误的用户输入,给出系统的推荐词条。
学习模块通过记