我们常用的搜索引擎是 We 搜索 是信息检索的 个分支,学术上的信息检索( Information
trieva l , 简称 IR )的定义为 信息检索是从大规模非结构化数据 (通常是文本)的集合(通
常保存在计 机上〉中找出满足用户信息需求的资料(通常是文档〉 的过程。
1.信息检索常用术语
• 用户需求 (User Need ,简称 UN)
需要获得的信息 严格地说, UN 存在于用户的内心,但是通常用文本来描述,如找与“2014 世界杯”相关的新闻,有时也称为主题( Topic )。
• (Query)
UN提交给检索系统时称为查询( Query ),如“ iPhone7 价格”。对同 UN ,不同人不同时候可以构造出不同的 Query 上述需求也可表示成 苹果7价格” Query 在IR系统中往往还有内部表示。
• 文档 (Document)
文档是信息检索的对象,文挡不仅仅可以是文本,也可以是图像、视频、语音等多媒体文档。
• 文档集(Crops)
由若干文档构成的集合称为文档集合,文档集有时也称为语料库。海量的互联网网页件系统中的文本文件、大量的电子邮件,都是文档集合 具体例子。
• 文档编号(Document ID )
文档 ID是给文档集中的每个文档赋予的标识符,通过文档 ID 来区分不同的文档,这样能够方便搜索引擎的内部处理 缩写为 docID。
• 词条化( tokenization)
词条化是将给定的 符序列拆分成系列子序列的过程,拆分的每个子序列称为一个词词条化的过程中有