972信息检索 | 第二章 信息检索的方法和技术

第二章 | 信息检索的方法和技术

信息检索的主要目的是在最短的时间内获得最满意的检索结果

网络信息检索的基本方法

  • 布尔逻辑检索

    逻辑AND(或*)表示

    逻辑OR(或,或)表示

    逻辑““用NOTAND NOTBUT NOT)(或-)表示

    优先次序:逻辑““ > 逻辑”” > 逻辑”“,若有括号存在,则括号优先

  • 邻近检索(位置限制检索)

    是用一些特定的算符(位置算符)来表达检索词与检索词之间的顺序和词间距的检索

  • 短语检索(精确检索)

    使用“ “表示

  • 截词检索

    是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分(常见截词符:?、*、!)

  • 字段限制检索

    在信息检索的过程中,为了提高查全率和查准率,需要将检索范围限制在特定的字段中,如AB 代表文摘

  • 括号检索

    用于改变运算的先后次序,括号内的运算优先

  • 自然语言检索(智能检索)

    直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样

  • 多语种检索

    提供多语种的检索环境供用户选择,系统按照用户选定的语种进行检索并反馈结果

  • 模糊检索

    是指使用某一检索词进行检索时,能同时对该词的同义词、近义词、上位词、下位词进行检索

  • 区分大小写的检索

    搜索工具认为用户指定了只要大写,就只会查找哪些与用户键入的输入形式完全相同的结果,如China,则只检索出China

信息检索的主要技术

  • 全文检索技术

    全文检索技术是将一个完整信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合

    特点:

    1. 信息量大,未经加工的详尽的、客观的原始信息;
    2. 信息检索的灵活性和适应性;
    3. 文本中任何字符或字符串都可以作为检索入口点,且能够处理结构化和非结构化等各类文本数据;
    4. 检索语言的天然性,支持使用自然语言进行检索;
    5. 数据相对稳定

    缺点:查准率较低,检索结果过多,让用户较难甄别高价值信

  • 多媒体信息检索技术

    音频的检索方式:1)语音检索;2)音乐检索;3)音频检索

    视频的检索方式:1)视频分割;2)关键帧提取;3)场景变换探测;4)故事情节重构

  • 超文本及超媒体检索技术

    把有关的信息或资源通过超链接联系起来,检索时可以借助超链接实现相关信息的阅读

  • 智能信息检索技术

    采用人工智能进行信息检索的技术(可进行语义处理)

  • 可视化信息检索技术

    是将信息资源、用户提问、信息检索模型、检索过程以及检索结果中各种不可见的内部语义关系转换成图像,显示在一个二维、三维或多维的可视化空间中,帮助用户理解检索结果、把握检索方向,以提高信息检索的效率和性能。

  • 跨语言信息检索技术

    允许用户使用其熟悉的某一种语言来构造检索式,以此检索出另外一种或集中语言表达的信息。
    跨语言信息检索技术实现的核心问题是“翻译”

  • 文本聚类技术

    聚类:在对应的特征空间的亲疏远近来决定其类别

    自动聚类技术用来分析被聚类对象的特征,再根据一定的聚类算法将这些对象分成不同的簇

信息检索的技巧

信息检索的流程

检索策略:是为实现检索目标而制定的全盘计划,是就一个问题检索或多个数据库输入的全部检索式的集合

分析信息需求
了解查询目的和要求
确定关键词
确定学科/主题/地域/语种/时间范围
确定信息类别
确定查询方式
确定资源性质
  • 了解所要查询的目的和要求

    明确你进行信息检索的目的是什么,确定你希望获得什么样的信息。例如,你是在进行学术研究还是解决实际问题,你需要的是基础知识还是最新的研究成果。

  • 确定检索问题的关键词

    确定与你的查询问题相关的关键词或术语

  • 确定涉及的学科或主题范围、地域范围、语种范围、资源的时间范围

    这些限定条件将有助于缩小检索范围,提高检索结果的相关性。

  • 确定需要的信息类别

    明确你所需要的信息类别有助于针对性地选择合适的资源和数据库。

  • 确定查询方式(浏览、分类检索、关键词检索)

    你可以通过浏览资源的目录或索引、进行分类检索或使用关键词检索等方式来获取相关信息。

  • 确定资源的性质(学术?大众化?)

    有助于选择适合的信息源和数据库

选择合适的检索工具
检索工具
检索大众化主题
搜索引擎
Google或百度等
期刊论文
中外文期刊数据库
CNKI
WOS等
背景与术语
在线百科全书
专业词典等
图书出版信息
联合目录
图书馆馆藏目录OPAC
WorldCat等
  1. 检索大众化的主题:
    • 使用常见搜索引擎如Google、百度等进行关键词搜索。
    • 可以尝试使用不同的搜索词组合、加上限定词或使用高级搜索选项来缩小搜索范围。
  2. 查找期刊论文:
    • 首选CNKI、Elsevier等中外文期刊数据库
  3. 查找背景与概况信息术语:
    • 访问在线百科全书(如维基百科)
    • 专业词典网站等
  4. 查找图书的出版信息:
    • 可利用各图书馆的馆藏目录(OPAC)、WorldCat等联合目录
确定检索点与检索词
  • 检索词:用户或检索人员检索时输入的字、词、短语或字符,用于查找含有它(它们)的记录
  • 关键词:指那些出现在文献的标题、关键词、摘要或正文中,对表达文献主题内容具有实质性意义的词
避免抽象或模糊
获取更广泛的相关结果
扩大检索范围
使用引号
复杂的检索需求
选择关键词
使用名词或物体
控制关键词数量
2-3个
截词检索
利用OR
专有名词大写字母表示
精确检索
使用括号分组

选择关键词的建议:

  1. 使用名词或物体作为关键词
    • 选择与所需信息主题相关的名词或物体作为关键词。
    • 避免使用过于抽象或模糊的词语。
  2. 检索式中使用2-3个关键词为宜
    • 选择2-3个最具代表性和关键性的词语作为关键词。
    • 避免关键词过多导致检索结果过于杂乱。
  3. 使用截词检索
    • 可使用词根、词干或词首进行截词检索,以获取更广泛的相关结果。
    • 适用于需要涵盖相关变体词形的情况。
  4. 利用OR连接同义词、近义词、相关词或同一术语的不同表达方式
    • 将具有相同或相似意义的词语使用OR连接,以扩大检索范围。
    • 适用于不同词汇表达方式或不同学科领域的术语。
  5. 专有名词使用大写字母指定检索
    • 对于专有名词或特定的术语,使用大写字母进行检索以保证准确性。
  6. 对固定短语,用“ ”进行精确检索
    • 对于固定短语或特定的词组,使用双引号将其包围,以精确检索相关内容。
  7. 用括号将各个概念分开
    • 对于复杂的检索需求,可以使用括号将不同概念或条件进行分组,以确保逻辑正确性。
正确构造检索式
  1. 检索式:又称检索提问表达式,是检索策略的具体体现,是要求检索系统执行的检索语句
  2. 有效检索的基础:充分利用搜索工具支持的检索运算,允许使用的检索标识、各种限定
  3. 避免漏检的有效做法:
  • 对于每个概念,尽可能列举其同义词、近义词、相关词甚至上位词和下位词。
  • 使用布尔逻辑运算符OR将这些词语连接起来形成子检索式。
  • 使用适当的布尔逻辑运算符将所有子检索式连接起来形成总检索式,即“积木型检索式”。

下面是一个关于积木型检索式的简单应用:

假设我们想要查找关于高血压(hypertension)和心血管疾病(cardiovascular disease)之间的关联的学术文献。我们可以使用以下的"积木型检索式"来进行构造检索式:

(高血压 OR hypertension) AND (心血管疾病 OR cardiovascular disease)
及时调整检索策略
扩大检索范围
  1. 使用布尔逻辑运算符 “OR”:
    • 将相关的同义词、近义词、相关词用 “或” 连接,以扩大检索范围。
  2. 降低检索词的专指度:
    • 使用更一般化的词汇,避免过于具体的专业术语,以便检索到更多相关文献。
  3. 减少使用布尔逻辑运算符 “AND” 连接最不重要的检索词:
    • 将主要关键词使用 “AND” 连接,而辅助词或次要关键词可以不使用 “AND”,以避免过于严格的检索限制。
  4. 去掉布尔逻辑运算符 “NOT”,取消某些限制:
    • 取消不必要的限制条件,如文献类型、出版年、语种等,以扩大检索结果的范围。
  5. 使用分类号进行族性检索:
    • 利用图书馆分类系统的分类号进行检索,以查找与特定主题相关的文献。
  6. 使用截词检索:
    • 使用关键词的部分词根进行检索,以包含更多变体和衍生词。
  7. 利用检索工具提供的 “自动扩检” 功能进行相关检索:
    • 使用搜索引擎或数据库的自动扩展检索功能,以获取与查询相关的额外信息。
  8. 使用多个检索工具进行检索:
    • 使用多个搜索引擎或数据库进行并行检索,以增加检索结果的覆盖范围。
  9. 使用元搜索引擎:
    • 使用元搜索引擎,它可以同时在多个搜索引擎或数据库中进行检索,并将结果整合在一起。
  10. 使用信息资源的整合平台检索来自不同提供方的各种数据库:
    • 利用信息资源整合平台,可以通过单一的检索界面同时搜索多个不同提供方的数据库,以获取更全面的信息。
缩小检索范围
  1. 使用逻辑 “OR” 连接更多的关键词:
    • 以缩小检索范围并获得更精确的结果。
  2. 使用逻辑 “NOT” 把不需要查找的关键词排除在检索结果之外:
    • 以过滤掉与检索目标无关的文献。
  3. 使用位置限制检索:
    • 在检索中指定关键词出现的位置,如标题、摘要、正文等,以获取与特定位置相关的文献。
  4. 使用字段限制检索:
    • 在检索中指定关键词出现的字段,如作者、标题、主题词等,以缩小检索范围和提高准确性。
  5. 使用短语检索进行精确检索:
    • 使用引号将多个关键词组成短语,以进行精确匹配,获得与短语相关的文献。
  6. 使用缩写与全称:
    • 对于专业术语或常用缩写,同时使用缩写和全称进行检索,以确保涵盖不同的表达方式。
  7. 利用检索工具的进阶检索功能:
    • 使用搜索引擎或数据库提供的进阶检索功能,如二次检索、Refine、Search again等,以进一步细化和优化检索结果。
  8. 限制查询范围:
    • 在检索中限制查询范围,如地域范围、时间范围、网站类型范围、文件类型等,以筛选出符合特定条件的文献。
检索结果的输出
  1. 输出方式

    显示、复制、打印、下载、Email发送、输入到参考文献管理软件或个人信息管理软件

  2. 输出形式

    目录、题录、文摘、全文或自定义形式、选择性输出

972系列文章索引

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
1.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。 2.超星电子图书的读者可以选择的阅读方式是:阅读器阅读和网页阅读。 3.中国专利法在1985年开始实施 4.在会议文献中,常用英文哪个单表示“专题讨论会”。(单首字母,请大写)Workshop 5.在CNKI平台下,“主题”检索的内容,不包含以下哪个?(作者) 6.一本印刷的检索工具,其结构大体可以分为,三大部分:文前栏目、正文和书后附属部分 6.按约束力来划分,标准可以分为强制性标准和推荐性标准。 7.一般来说,我们把SCI、EI、ISTP称为,三大科技文献检索系统。 8.一个期刊被SCI收入后,会有一个WOS开头的入藏号。 9.广义的文献检索工具,可以分为:检索工具和【参考工具】。 10.《中图分类法》中,字母S代表的是“农业科学”,字母【T】代表的是“工业技术”。 11.按检索手段划分,文献检索工具可以分为手工检索工具和【机械检索】工具。 12.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。 13.著名的SCI检索工具,其英文全称是:【Science Citation Index】。 14.判断一本国内期刊是否合法的一个简单方式是,看该期刊的哪个信息?(CN) 15.按信息的出版类型分:学位论文,属于以下哪种信息源?(特殊文献) 16.Spischolar平台主要是搜索,哪种类型的参考文献?(电子学术论文) 17.政府出版物,从信息出版形式的角度看,属于以下哪类信息源?(特殊文献) 18.一般情况下,Open Access方式发表的文献,版权是归谁所有?(作者所有) 19.CPCI检索是针对哪种文献类型**(会议论文类型的文献)** 20.中科院文献情报中心,对JCR期刊按其影响因子和引用率,分类几个区?(4个) 21.引文检索除了实现信息评价外,还能达到**【信息检索】**的目的。 22.关键字是论文的组成部分,学术论文的关键字,其数量一般控制在:**(3-8)**个? 23.美国是在1976年的《著作权法案》,首次为合理使用制定了标准。 24.按《中国标准文献分类法》,其一级类目中“电子元件与信息技术”,用哪个字母表示?(L) 25.学术造假一般分为三类,分别是:伪造、篡改和造假。 26.百度、谷歌这样的搜索引擎,属于什么类型的搜索引擎【全文搜索引擎】 27.Compendex数据库是属于:【二次】文献数据库。 28.用户想要检索和下载“电子图书”,一般推荐选择哪个检索平台?【读秀】 29.书生之家平台上检索的文献类型主要是哪类?【电子图书文献】 30.不是Web of Science平台的主要期刊来源的是哪个?【EI】 31.防止学术剽窃,一般采取的方法有:教育、法律和科技手段。 32.在大多数情况下,检索的目的是为了找到 相关文献 ,而不是"答案"。 33.二八定律在期刊文献检索中的体现是:20%的期刊登载了80%的重要文献,体现这种特性的期刊是 核心期刊 。 34.文献的特性有 知识信息性 、 客观物质性 、 人工记录性 、 动态发展性 。 35.文献的 内容 特征用于找出相关文献, 外部 特征用于获得特定文献。 36.文献获取与利用的过程中存在三重语言障碍,分别为: 自然语言障碍 、 专业语言障碍 、 检索语

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是希望

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值