2022-02-20 《信息检索导论》学习笔记(一)

第一章——布尔检索

1.1 基本概念

信息检索:信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。

非结构化数据(unstructured data):指的是那些没有清晰、明显语义结构的数据,而计算机不易处理这类数据。

半结构化数据(semistructured data):有一些文本无明显语义的结构,但其仍然具有例如标题、段落、脚注等结构,信息检索往往也支持这种半结构化数据的搜索。

聚类(clustering):聚类是一种基于文档的内容进行自动聚团的任务。

分类(classification):分类是一种将每篇文档分到一个或者多个类别的任务。

信息检索按照处理数据的规模区分三个级别:Web搜索(Web search)、个人信息检索(personal information retrieval)、面向企业机构和行业领域的搜索(domain-specific search)。

线性扫描:线性扫描就是将文本从头到尾扫描一遍,并且在扫描中还可以通过使用正则表达式来支持通配符查找,这是一种最简单的文档检索方式。这个过程通常称为grepping。

线性扫描方式的不足
① 不适合大规模文档集合条件下的快速查找。
② 不适合一些包含特殊含义词的词条的查找。
③ 不能对结果进行排序。

关联矩阵(incidence matrix):给定词表

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值