布尔文献检索模型简介-CSDN博客

在海量网络数据中，寻找所需信息如同大海捞针。本文探讨了信息检索的难点，介绍了布尔逻辑作为早期且广泛使用的检索模型，以及其在精确匹配和关键词权重方面的局限性。此外，还提供了CARS标准，帮助评估搜索结果的可信度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在没有网络的时候，手头能访问的信息量太少是个问题。现在有了网络，怎么在海量的数据中找到自己需要的信息是另一个头疼的问题。现在全世界有超过 5 亿个网站，存在大量的文献数据库，即使一个比较生僻的关键字，可能都会返回成千上万的搜索结果。为了可以得到更准确、更相关的搜索结果，适合的信息检索数学模型是必不可少的。

布尔逻辑将是建立最早的模型，也是目前应用最广泛的检索技术。它是通过布尔逻辑运算符：逻辑与（AND），逻辑或（OR），逻辑非（NOT）的组合来表达用户的检索需求。布尔逻辑是乔治·布尔在19 世纪中期定义的代数系统。1957 年，巴·希列尔最先探讨了将布尔逻辑应用到计算机检索的可能性。上世界 6，70 年代，布尔检索模型被正式用于各类文献系统并且逐步成为商业标准。于此同时，也有其他的文献检索模型被创建，比如向量空间模型、概率检索模型、模糊集合模型、扩展布尔检索模型等。

布尔模型有简单，容易上手的特点。由于采用的是准确匹配的策略，在关键字表达式正确的情况下，可以很容易返回精确的结果。但是在文献调研阶段，要构造这样一个准确的表达式很困难，需要经过多次的迭代或者需要专业人员的帮忙。同时，如果忽略了一些关键字，很可能就会错过重要的相关文献 [1]。

除了精确构造表达式比较困难外，布尔模型的另外缺点是无法区分关键字之间的重要程度，所以对返回结果也就无法进行排序，只能靠自己对结果进行筛选。在进行筛选的时候，可以用 CARS 标准来衡量结果：

C （credible）：资源是否可信？任何人都可以宣称自己的资源是可信的，但是仍然需要用自己的专业知识来做出判断。

A（accurate）：信息是否准确？“信任但要验证”的原则在现在这个信息泛滥的时代处处适用。

R（reasonable）：研究假设是否合理？

S（supported）：其他的文献是否支持这篇文章？文章结果是否已经得到重复验证？

[1] 网络信息采集与应用，南京航空航天大学图书馆。