第一章——布尔检索
1.1 基本概念
信息检索:信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。
非结构化数据(unstructured data):指的是那些没有清晰、明显语义结构的数据,而计算机不易处理这类数据。
半结构化数据(semistructured data):有一些文本无明显语义的结构,但其仍然具有例如标题、段落、脚注等结构,信息检索往往也支持这种半结构化数据的搜索。
聚类(clustering):聚类是一种基于文档的内容进行自动聚团的任务。
分类(classification):分类是一种将每篇文档分到一个或者多个类别的任务。
信息检索按照处理数据的规模区分三个级别:Web搜索(Web search)、个人信息检索(personal information retrieval)、面向企业机构和行业领域的搜索(domain-specific search)。
线性扫描:线性扫描就是将文本从头到尾扫描一遍,并且在扫描中还可以通过使用正则表达式来支持通配符查找,这是一种最简单的文档检索方式。这个过程通常称为grepping。
线性扫描方式的不足:
① 不适合大规模文档集合条件下的快速查找。
② 不适合一些包含特殊含义词的词条的查找。
③ 不能对结果进行排序。
关联矩阵(incidence matrix):给定词表