提示:
信息检索 布尔检索 倒排索引 布尔查询
信息检索
信息检索是从大规模非结构化数据(一般为文本)集合找出满足用户信息所需要的资料。
非结构化数据指没有清晰和明显语义结构的数据,计算机不易处理。
结构化数据典例:关系数据库
举个例子(词项-文档关联矩阵一个题目)
非线性扫描:一种方式是给文档建立索引
词项-文档关联矩阵
每列代表一个剧本,每行代表一个词项。当对应词项出现在剧本中时在表格中写1,没有就是0.
对于词项-文档关联矩阵,给出一个上图问题:
解:取出词汇对应行,并对Calpurnia对应行求反,即
110100 AND 110111 AND 101111 = 100100
1对应位置的文档即为所求:第一个和第四个文档
布尔检索模型接受布尔表达式查询
即AND 、 OR 、 NOT逻辑运算符组成的查询
相关术语及概念
倒排索引
从词项反向映射到文档
倒排索引示例
倒排索引构建
文档转化为归一化词条(小写,去标点等)->单个词汇列举->词条首字母排序->合并相同词条,建立索引
布尔查询处理(案例)
两个倒排记录表的合并算法
查询优化
查询优化:通过组织查询处理过程使处理工作量减少。
布尔查询优化主要因素:倒排记录表的访问顺序
方案:按照文档频率(倒排记录表长度)从小到大处理。