最近想系统的学习搜索引擎,所以想用博客来记录整理学习过程。
信息检索系统是帮助用户查找信息的一种工具,为了能快速准确地找到信息,信息检索系统对信息进行正确的表示、存储、组织,提供信息的访问方式。
信息检索的过程:构建文本库、建立索引、搜索、返回结果前对结果进行过滤。构建文本库主要用来保存所有用户可能检索的信息,建立文本模型后根据数据库内的文本建立索引(便于检索的数据结构),来提高信息检索的速度;其中索引分:倒排、后缀数组、签名文档。倒排不在是整页的信息了而是将信息分成一个个的关键字,并辅以关键字在文章的页数,构成一个倒排基本单位。
评价检索系统的标准:
信息是否完全,信息检索的响应时间,召回率,精度,自然程度。