信息检索-黄如花（已完结）（复试参考标题格式空了调整

2301_81352457

已于 2024-07-10 16:33:21 修改

阅读量2.5k

点赞数 32

文章标签：全文检索搜索引擎

于 2024-03-29 09:58:03 首次发布

本文链接：https://blog.csdn.net/2301_81352457/article/details/137135667

版权

信息检索概述

基本概念
信息检索的定义

广义的信息检索是指将信息按一定的方式组织和存储起来，并根据信息用户的需求找出有关信息的过程。

从学术研究领域可以界定为：信息检索是从文档集合（通常存储在计算机中）查找满足某种信息需求的具有非结构化性质（文本、文字、图像、视频流）的资料（文献）

信息检索的种类
- 根据从对象形式的不同分类：

文献型信息检索（借助书目型数据库）

数值型信息检索（借助各种数值数据库和统计数据库）

事实型信息检索（依靠指南数据库和全文数据库查找）

1. 根据检索对象的角度分类

文本检索，数值检索，音频与视频检索

信息检索的基本原理：

通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储，建立各种各样的检索系统，并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致，以便有效地获得和利用信息源。

（文献替代→文献整序→文献特征标识与检索提问标识的匹配）

信息检索语言的定义：
是人们在加工、存储和检索信息时用来描述信息内容和信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。
信息检索模型概念
- 信息检索模型，就是运用数学的语言和工具，对信息检索系统中的信息及其处理过程加以翻译和抽象，表述为某种数学公式，再经过演绎、推理、判断、解释和实际校验，反过来知道信息检索实践。
信息检索模型种类：布尔逻辑模型，向量空间模型，概率检索模型，模糊集合模型。扩展布尔模型，基于本题的检索模型、跨语言信息检索模型等。

信息检索的主要模型（3种）

1. 布尔模型

概念：布尔模型是基于集合理论和布尔代数的一种简单的检索模型。由与集合的概念非常直观，布尔模型为信息检索系统的普通用户提供了一种易于掌握的框架。

优点：形式简洁、结构简单（A and B，or）

缺点：判断文献要么相关，要么不相关，无法描述与查询条件部分匹配的情况，可能导致检出的文献过多或过少。

1. 向量空间模型

概念：通过对检出文献按相似度降序排列的方式来实现文献与查询的部分匹配。这样做最明显的效果就是结果集（answer set）内的文献排列顺序比通过布尔模型得到的结果集要合理的多，从某种意义上说，能更好地匹配用户信息需求。

优点：标引词加权改进了检索效果；其部分匹配策略运行检出与查询条件接近的文献；余弦公式根据文献与查询之间的相似度对文献进行排序。

缺点：标引词被认为彼此之间相互独立。

1. 经典概率模型

概率模型试图在一个概率的框架下解决信息检索问题，其基本思想是：给定用户一个查询，存在一个文献集合，该集合只包括完全相关的文献而不包括其他不相关的文献，我们把这个文献集合称为理想结果集。因此，可以把构造查询的过程看成是详细描述理想结果集属性的过程，这个属性在查询时是未知的，那么在初始时就要努力猜测这些属性是什么。这个初试的猜测允许我们形成一个初步的对理想结果集的概率描述，用于检索出初始的文献集。

信息检索系统的定义
1. 1. 1. 1. 信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。
      2. 按检索功能划分，主要包括5类，文献检索系统，数据库管理系统，自动问答系统，管理信息系统和决策支持系统。
数据库的定义：数据库是在计算机存储设备上按一定方式存储的相互关联的数据集合。数据库由字段、记录和文档组成
查全率和查准率的定义：

查全率：检出的满足需求的文献数占数据库中满足需求的文献数，

查准率：检出的满足需求的文献数占数据库中检出的全部文献。

信息检索系统的逻辑结构

信息检索的历史
信息检索的模型
信息检索系统结构与评价

信息检索系统的评价：评价指标有：覆盖范围（coverage）、查全率（recall ratio）、查准率（precision ratio）、响应时间（response time）、用户负担（user effort）、检索结果输出格式（format output）信息检索系统评价的核心是检索性能评价（retrieval performance evaluation）。检索性能评价是根据一定的评价指标对实施信息检索活动所取得的成果进行客观科学评价，以进一步完善检索工作.

信息检索的方法与技术

网络信息检索的基本方法

基本方法
1. 布尔逻辑检索
2. 邻近检索
3. 短语检索
4. 截词检索

信息检索的主要技术

全文检索技术

概念：对超大文本、图像、音频、视频等非结构化数据进行综合管理的复合技术

新颖之处：它可以使用原文中任何一个有实际意义的词作为检索入口，而且得到的检索结果是源文献而不是文献线索（有实际意义指有表达的主体，例如苹果、维生素。而“随着时代的发展”这句话就没有实际意义）

全文检索以全文数据库存储为基础。所谓全文数据库即是将一个完整信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。（计算机并没有改变原始信息，只是把原始信息的呈现方式改变，能更好呈现给用户。像书目数据库就是二次文献）

全文数据库的特点：

①信息量大，其中包含的信息基本上是未经加工的、详尽的、客观的原始信息

②信息检索的灵活性和适应性，文本中任何字段或字符串（和前面说的“任何有实际意义的词”一个意思）都可以作为检索入口点，且能处理结构化（加工处理后有逻辑结构的文献）和非结构化等各类文本数据。

③检索语言的自然性，不做人工标引，可使用自然检索语言。（大白话：“什么是信息”）

④数据相对稳定

与传统检索系统相比，具有查全率较高，计算机自动标引、检索功能强大、灵活性强大等特点

缺点：查准率较低。查准率不高。很难从海量的检索结果中甄选质量较高的信息

多媒体信息检索技术

音频检索三方法：语音检索（以语音为中心，电台、录音）、音乐检索（以音乐为中心，乐器、声乐作品）、音频检索（以波形声音为对象，雨声、鸟叫。该检索包括语音检索和音乐检索）

视频检索：视频是一组图像按时间有序连续的表示，它与图像序列、时间关系有关。视频数据可以用幕景、场景、镜头、帧等描述。

基于关键帧的检索，用户可以用目标特征说明的直接查询，可视实例的查询和指定的特征集查询等多种方法，在数据库中直接检索；

基于运动的检索，即基于镜头和视频对象的时间特征进行检索；

浏览，一般采用分层结构（保安室里的九宫格监控）和集束分类技术（相同特征的数据集分类）

PS：问多媒体信息检索时候，回答要分两类回答，多媒体分为音频和视频，首先音频检索怎么样，其次视频检索怎么样

超文本及超媒体检索技术

是信息的组织方法与手段，是一种信息管理技术，特点是反传统文本对信息的线性与顺序记录方式，而模仿人类联想式的记忆思维，将互相关联的信息以网状的结构加以存储和记录（不再像以前1到2,2到3,3到4这样线性的；而是只要相关就可以有联系的网状结构）。

超文本检索就是把有关的学习或资源通过超链接联系起来，检索时可以借助超链接实现相关信息的阅读。

超媒体是基于超文本支持的多媒体，更注重信息之间关系的建立与表示。

该技术存在的缺陷是：信息以超文本方式链接，用户检索的主动性变为被动性（因为会检索出目标2相关的3和4，被动接受了3和4的信息），导致检索过程中含有极大的盲目性和偶然性；容易偏离检索目标，导致检索“迷航”

发展趋势的表现

由超文本向超媒体发展
由超媒体向智能超媒体发展，由被动到主动，使其具有推理机制和学习机制，在超媒体的链和节点中嵌入知识或规则，允许链进行计算和推理。
由超媒体向开放超媒体发展。不能仅限于封闭和特定的应用领域。实现开放性的重要基础是超媒体的结构信息（技术原理应用）和内容信息的分离。

智能信息检索技术

智能检索技术就是采用人工智能进行信息检索的技术。它可以模拟人脑的思维方式，分析用户易自然语言表达的检索请求，自动形成检索策略进行只能、快速、高效的信息检索。

智能检索技术主要体现在语义理解、知识管理和知识检索、它利用语义分析模块自动只能分次，进行用户请求和知识库“数据”的语义理解，最终把知识库中匹配的信息筛选、整序后提供给用户。最大特点就是在检索过程中引入了资源对象的语义处理。

可视化信息检索技术

可视化信息检索是将信息资源、用户提问、信息检索模型、检索过程以及检索结果中各种不可见的内部语义关系转化成图形，显示咋一个二维、三维或者多维的可视化空间中，帮助用户理解检索结果、把握检索方向。以提高信息检索的效率与性能。可挖掘隐藏的信息。

跨语言信息检索技术

翻译（查准率低，检索效果不理想，使用不普遍，主要用在去翻译语言资源，消除歧义性）

文本聚类技术

聚类（分类）：按照信息资源间的相似性，即对它们在对应的特征空间的亲疏远近决定其类别。

快速和高质量的文本聚类可以将大量信息组织成若干个有意义的簇，要求同一簇内文档内容的相似度尽可能地大，而不同簇间的相似度尽可能地小，从而改善检索性能。

自动聚类技术用来分析被聚类对象的特征，再根据一定的聚类算法将这些对象分成不同的簇，其过程主要包括特征选择、文本表示和聚类处理，常用的聚类算法有（背过这5名词即可，读研期间常用问卷调查，很少接触到算法）：层次聚类法、平面划分法、密度聚类法、网格聚类法、模型聚类法

13信息检索的技巧很重要，只要问“怎么检索XX”，都可以用这个流程，注意分点和顺序

技巧体现在信息检索的流程上（retrieval process）（流程是面向用户，要和信息检索原理作区分）

分析信息需求
选择合适的检索工具
确定检索点与检索词（检索点：对应数据库中的字段，是系统自带的，是用来选择的入口，例如主题、篇名。检索词是我们输入的）
正式构造检索式（自然语言也可）
及时调整检索策略（扩大检索范围近义词同义词，要查A机构，可以输入“A机构or A组织”，布尔逻辑和缩小检索范围：文献太多and 或者 not。检索结果满意就不用这步）
检索结果的输出

搜索引擎

概述

14.搜索引擎的定义：

搜索引擎是一种Web上应用的软件系统，它以一定的策略在Web上搜集和发现信息，在对信息进行处理和组织后，为用户提供Web信息查询服务

搜索引擎的工作原理（重要，要背）

搜索引擎三个功能模块

网页搜集：系统通过程序爬虫，扫描网站的所有网页并将有关信息存入数据库。
预处理：关键词的提取：重复网页的消除；超链接分析；网页重要程度的计算。通过预处理建立索引数据库，保持搜集到的信息，将它们按照一定的规则进行编排。
查询服务：接收到检索请求后，检索索引数据库，通过网页链接找到网页资源，返回给用户，列表显示摘要结果。

搜索引擎的分类
1. 按信息内容的组织方式划分

目录式搜索引擎：是以人工方式或半自动方式搜集信息，由搜索引擎的编辑员查看信息之后，依据一定的标准对网络资源进行选择、评价、人工形成信息摘要，并将信息置于事先确定的分类框架中而形成的主题目录。

其收集的网络资源经过人工的挑选和评论，因此具有信息准确、信息质量较高的优点，同时存在收录网络资源规模有限、维护量大、信息更新不及时等不足。目录式搜索引擎有助于全面了解某一主题包含哪些高质量网络资源。而对于检索专指性高的课题，可能查询效果不甚理想。

机器人搜索引擎：不依靠人工发现和甄别信息，是由一个被称作蜘蛛的计算机程序依据一定的网络协议以某种策略自动地在互联网中搜集和发现信息，由索引器为搜集到的信息建立索引，由检索器根据用户的查询输入检索索引库，并将查询结果返回给用户。（索引器→索引库，用户→检索器→索引库→反馈给用户）

优点是信息量大、更新速度快；

缺点是返回信息过多，冗余信息较多，用户必须从结果汇总进行筛选。

如谷歌、百度、搜狗。

1. 按专业范畴划分
综合性搜索引擎：综合性搜索引擎内容覆盖各个学科和生产生活的各个领域，可检索图片、音频、视频等多种资源类型，适用对象广泛，如百度、谷歌
专业性搜索引擎，收录一个或几个学科资源的搜索引擎。
1. 按检索功能划分

独立搜索引擎：又名单一搜索引擎或常规搜索引擎，其特点是建立独立的数据库，通常只在改数据库中进行搜索，并返回查询结果。
元搜索引擎：又称多元搜索引擎或集成式搜索引擎，是多个独立搜索引擎的集合，通过一个统一的用户界面，可同时对多个搜索引擎进行检索操作，即用户只需一次输入检索式，便可检索一个或多个独立搜索引擎。

部分元搜索引擎支持检索结果去重功能。具有扩大检索范围、避免多次访问不同搜索引擎、提高检索效率等优点。

独立搜索引擎与元搜索引擎的主要区别在于：前者拥有独立的网络资源采集标引机制和相应的数据库，后者统一链接界面，形成一个由多个具备独立功能的分布式搜索引擎构成的虚拟平台。用户通过元搜索引擎实现对多个独立搜索引擎的数据查询、结果显示等操作。

1. 按搜索运营方式划分

通用搜索引擎：如百度、谷歌。特点是面向所有用户，不特别针对某一行业或领域，具有信息量大，对于特定领域的查询不准确、深度不够等问题。

垂直搜索引擎：是指针对某一个行业某一领域的专业搜索，具有“专、精、深”的特点，是对Web中某个特定主题信息的整合，可以满足用户个性化的检索需要。

综合搜索引擎选介

综合性搜索引擎评价指标

收录范围：是否完备充分
检索功能与效果：1完善的检索手段，且具备多种检索功能，既能满足一般用户的浏览检索，又能满足专业用户的专指检索。检索效果：查准率，查全率，搜索条件频率，响应速度。
对检索结果的处理：结果的内容组织、排序方式、返回结果描述的详细程度、相关信息的完备程度。提供多种输出方式，包括多样化的显示格式，结果详简程度、相关信息的完备程度。提供多种输出方式，包括多样化的显示格式，结果的详简程度和结果排序方式，检索结果聚类、保存并修改检索式、在结果中进行二次检索等因素。
外链程度：即通过搜索引擎被其他网站链接的数量和广度来评价网站。
用户体验。

中外学术引擎选介

国内重要的综合信息检索系统

知网（必背，2345节也很重要，关注收录范围、检索方式。CARI中国高等教育文献保证系统）

中国知网（CNKI）

中国知网是世界上最大的连续动态更新的学术文献数据库

中国学术期刊网络出版总库
中国博硕士学位论文全文数据库
国内外重要会议论文全文数据库
中国重要报纸全文数据库
专利数据库
标准数据库
中国科技项目创新成果鉴定意见数据库（知网版）
外文文献数据库
中国法律知识资源总库（简称CLKD）
中国年鉴网络出版总库
国学宝典数据库

CNKI的检索：

一框式检索：可以进行跨库检索，也可以进行单库检索。检索时可以进行多种限定。
高级检索：高级检索提供多字段组合检索。与检索词的匹配，分为精确匹配与模糊匹配两种。精确匹配要求检索结果须与检索词完全一直。模糊匹配则指检索结果中包含检索词中所含各问素即可。
专业检索：需要用户自己输入检索式来检索，并且确保所输入的检索式语法正确，这样才能检索到想要的结果。（字段限制检索）

CNKI检索结果的显示与处理：

CNKI的检索结果可以进行分组和排序。包括六中分组方式（学科、发表年度、基金、研究层次、作者、机构新知网多了“主题、文献来源、文献类型”），四种排序方式（主题排序、发表时间、被引次数、下载次数）新版知网多了一个“综合”排序。

CNKI关注指数涉及以下几个方面

学术关注度：篇名包含此关键词的文献发文量趋势统计。

媒体关注度：篇名包含此关键词的报纸文献发文量趋势统计。

学术传播度：篇名包含此关键词的文献的被引量趋势统计。

用户关注度：篇名包含次关键词的文献下载量趋势统计。

维普
国家科技图书文献中心NSTL
中国高等教育文献保障系统CALIS
中国科学院国家科学图书馆

国外重要的综合性信息检索系统

WOS

学术资源整合平台--Web of Science

概念：Web of Science（简称WOS）是基于联网建立的动态的学术信息资源整合平台，提供自然科学、工程技术、社会科学、艺术与人文等多个领域中高质量的学术信息，采用“驿站式”服务，兼具信息检索、文献管理、科研分析与评价等多项功能。

组成：WOS核心集合由7个数据库组成：科学文献引扩展版、社会科学引文索引、艺术与人文科学引文索引、科学会议录索引、社会科学与人文科学会议录引文索引、图书引文索引、新星来源引文案、化合物索引、全新化学反应。

WOS的其他资源：专利信息、研究信息快讯、专门学科的数据库、免费的外部数据库等、科研分析资源和信息分析工具。

WOS的检索p75：WOS虽然已推出中文检索界面，但只能进行英文检索。授权用户可以检索WOS平台所有可用资源，也可选择性检索一个或几个数据库。（1）布尔逻辑运算符（2）截词检索（3）短语检索

WOS的检索方式：基本检索；被引参考文献检索；高级检索；作者检索；化学结构检索。

WOS检索结果的显示与处理p77：WOS允许用户对检索结果进行多种排序选择，系统提供“分析检索结果”功能，“分析检索结果”还可以选择输出的图表类型。可对检索结果做标记、保存检索历史、随时随地保存检索式从而进行新的检索；对保存的检索式进行注册以获得最新资源通报服务。对选中的检索结果可显示、打印、邮件发送、导出到Endnote(引文管理软件，类似个人图书馆）及全文链接。

WOS的个性化服务：保存检索并创建跟踪、创建引文跟踪、使用EndNote在线保存和管理参考文献、从任意位置访问Web of Science、创建并维护经常阅读和设置目录电子邮件服务的定值期刊列表等。

SDOL
Seopus
Seival
Firstserach
Gale
ProQuest

国内外专业性书目信息检索系统

SeiFinder
剑桥科学文献CSA
生物学文摘BA
工程索引
美国医学文献
荷兰医学文摘
教育资源信息中心ERIC
公共事物信息数据库
图书情报学专业数据库LISA和LISATA

图书馆学与情报学文稿(LISA)

法学专业数据库

专类信息的检索

专利信息的检索

专利信息的检索

专利是专利权的简称。它是由专利机构依据发明申请所颁发的一种文件、这种文件叙述发明的内容，并且产生一种法律状态，即该获得专利的发明在一般情况下只有得到专利所有人的许可才能利用，专利的保护有时间和地域的限制，我国专利法将专利分为：发明、实用新型和外观设计。

专利包含三层含义：专利权、专利技术、专利说明书。（类似于商品拥有权、商品本身、商品说明书）

专利信息是指以专利文献为主要内容或以专利文献为依据，经分解、加工、标引、统计、分析、整合和转化等信息化手段处理，并通过各种信息化方式传播而形成的与专利有关的各种信息的总称。

专利文献广义指国家在审批专利过程中产生的官方事件以及出版物的总称，包括专利说明书，申请书，专利公报。狭义指专利说明书。

专利文献的类型：一次专利文献（专利说明书最原始的），二次专利文献（专利公报、专利文摘出版物、专利索引官方出版的），专利分类资料（专利分类表及分类表索引等属于一种用于检索的工具）

网上专利信息的检索p169
1. 商业性的专利数据库：汤姆森路透和Dialog提供的专利数据库
2. 网上免费专利信息资源的检索

知识产权管理机构（属于政府机构）建立的网站
专利门户类网站或专利资源导航网站（大学图书馆、等个人创办）
知识产权教育、研究和培训机构网站
学科专利信息中心（侧重于某一学科某一专业领域的专利网站，这些网站在某一领域推广专利，并提供该领域的专业性专利服务，有点还提供课程）
专利信息咨询服务企业与代理机构网站（一般由专利咨询机构、大公司的专利信息服务部门、专利事务所等创立，私企什么的）

商标信息的检索

商标信息检索

商标是区别商品或服务来源的一种标志

商标信息检索指商标注册申请人亲自或委托商标代理人到商标注册机关查询有关商标登记注册情况，以了解自己准备申请注册的商标是否与他人已经注册或正在注册的商标相同或近似的程序。

检索入口有：商标权所有者姓名，商标名称

商标信息检索的途径：分类检索（从商标分类表中查），关键词检索（商品名、注册号等），图像检索。

学位论文信息的检索

学位论文信息的检索

CALIS学位论文中心服务系统，提供简单检索，用户可通过开放链接方式或馆际互借获取全文。在显示结果页面可进行重新检索，可通过打印、下载、E-mail方式保存结果，还夸保存检索历史、设置定题通告等。
万方中国学位论文数据库（CDDB），提供分类浏览、简单检索、高级检索、专业检索。
中国知网的硕士与博士学位论文数据库
NSTL学位论文
中国国家图书馆博士论文数据库
中国科学院学位论文检索系统

会议论文信息的检索

会议论文信息的检索

会议文献就是在各种会议上宣读和交流的论文、报告、产生的记录及发言、论述、总结等各种形式的文献资料，是国际学术交流的重要组成部分。

会议论文数据库：

万方学术会议论文数据库，CNKI中国重要会议论文全文数据库，NSTL（国家科技图书文献中心）的中外文会议论文库，OCLC FirstSearch 会议论文与会议记录索引，ISI会议论文集引文索引。

科技报告的检索

科技报告（Science&Technical report）

概念：是围绕某个课题的科技活动所获得的阶段性进展或最终成果的记录与书面报告，是科研生产活动的第一手资料。有时又被称为研究报告，它是科技人员交流其研究活动的重要手段，是研究单位向为其提供经费的部门反映研究情况的正式技术文件，以积累、传播和交流为目的，由科技人员按照有关规定和格式撰写，真实而完整地反映科研人员所从事科技活动的内容和经验。通过该类文献，可以及时获得大量信息，并了解某个国家科技研究的基本情况。

科技报告划分

按照研究进度划分：初期报告、进展报告、中间报告、最终报告

按照保密程度划分：保密报告、非保密报告、解密报告。

美国四大政府报告：AD,PB,NASA,DOE（侧重民用工程的来自行政系统的PB报告/侧重军事技术和国防工程等领域的来自军事系统的AD报告/航空与宇航系统的NASA报告/原子能和能源管理的DOE报告）

商业性的科技报告数据库

万方数据中的科技成果类数据库：中国科技成果数据库是科技部制定的新技术、新成果查新数据库。
NSTL的国外科技报告数据库

国家科技图书文献重心的国外科技报告数据库主要收录1978年以来的美国政府研究报告，即美国四大政府报告。

NTIS美国政府报告数据库p201

是目前检索美国科技报告的主要检索工具

国家科技报告服务系统：是获取科技报告的免费站点。

移动搜索

背景

移动搜索对传统的桌面端搜索的输入方式和结果显示等方面进行了较大的改进。由于移动搜索终端设备的便携性，在内容显示的界面需要重新设计以适应移动终端设备显示的要求，增强用户在移动过程中检索和浏览的舒适度；另一方面，随着语音识别技术和人工智能技术的发展，移动搜索逐渐出现了更多方便人们在移动过程中检索的语音输入检索和拍照输入检索的功能。（这段话很重要。要背。老师问“你认为往后的搜索趋势会变成什么样，可以回答这段话”）
将移动搜索定义为：基于移动通信网络，用户利用各种移动终端设备，通过多种接入方式，如短消息服务、无线应用协议、互动式语音应答、手机应用等，获取Web或WAP站点网页内容、移动增值服务内容和本地信息，能够为用户提供随时随地、快速高效与情境感知的个性化信息与服务，满足其信息需求的信息搜索方式。
搜索情境指：用户开展搜索时所处的环境等属性，具体指的是用户在搜索时所处的搜索地点、搜索时间、搜索时的活动等因素。
移动搜索主要包括一下情境要素p208：用户情境；时间情境；位置情境；任务情境；设备情境。