文献检索基础

1、信息检索是现代人才的必备素质

  如何检索和利用信息资源,是一门学问,是现代人才的必备素质,也是一个人知识和能力可持续发展的重要条件。教育部和国家教委早在1984年就要求各高校开设文献检索课,并作为必修课,目的就是培养大学生的信息意识和获取文献信息的技能。近几年,随着计算机和通信技术的发展,社会信息进程加快,信息、物质、能源成为人类社会的三大财富,谁拥有信息谁就拥有财富,谁掌握了最新信息,谁就掌握了主动权。信息在社会生活中越来越重要,信息检索与利用这门课的作用也日益重要。

2、源于对文献查找的需要

  科学本身是具有连续性和继承性的,从事一项科研之前总是看以下前人做了那些工作,有哪些成功和失败的检验和教训可借鉴,这就涉及到查阅文献。

如果说我比别人看得更远些,那是因为我站在了巨人的肩上.

 

3、掌握文献检索可以节约工作时间

美国科学基金会凯斯工学院基金委员会 &日本国家统计局的对研究人员的全部工作时间分配是有个统计数据: 一个科研人员的时间分配:查找资料50.9%,实验32.1%,计划思考7.7%,数据处理9.3%

 

二、文献检索课要解决问题

 

第一章 文献检索基础

第一节  文献

 1.1.1  文献定义及特点

 1、文献的定义

文献是记录有知识的一切载体。知识、载体和记录构成了文献的三个要素。

●知识: 人们在社会实践中积累起来的经验,反映文献的信息内容,它是文献的组成部分.

●载体:是文献的外部形式,它是知识的包装或运载方式,是通过记录形成的物质实体。

●记录:是文献的一种人工编码,通过书写、刻印及光电、磁等技术手段生成各种含文献内容的标识符号,形成多种媒体的文献类型。

 

2、现代文献发展有几个主要特点

1)数量庞大:据统计,目前全世界每年出版各种文献总量约12000万册(12亿),平均每天出版文献约32万件。

2)类型繁多,文种复杂:除传统的印刷型以外,还有声像型、缩微型、电子型等。

.  类型繁多,迅速向电子化、网络化和数字化方向发展。数字图书馆是一种新型的知识和信息存储、使用、运行模式。与传统的图书馆藏书不同,它将浩如烟海的各种形式的文献资料加以数字化处理,并使之流动于全球信息网络;它与INTERNET上的信息资源也有区别,即经过分类编辑、整理、加工成有序的文献资源。

到目前为止,科技文献涉及到的文种约80余种。其中,以英文文献为主,占全世界文献量的2/3,德、俄、法、日、西班牙及中文各占有一定的比例。

  3)内容重复,交叉分散

●现代科学的综合交叉与彼此渗透使得文献重复发表的现象越来越多。

●同一内容的文献以不同形式出版  (会议‘专利)

●文献的分布呈现出既集中又分散的不均匀现象。即,相当数量的专业论文相对集中刊载在少量的专业期刊中,其余数量的专业论文却高度分散刊载在大量的非专业期刊中。 

 

4)知识更新加快,文献寿命缩短

文献信息更新周期缩短,交流传播速度加快。20世纪90年代以来,以计算机网络为媒介的电子信息传播交流速度之快更是惊人。可以说,从网络上获取文献信息,几乎没有时间和地域的差别。

    西方学术界普遍认为,80-95%的科技文献的使用寿命为5-7年。我国研究认为,中文文献平均半衰期为4.8-7.7年,最短的只有3年,可见科技文献的更新频率已大大加快了。

    总之,以上这四个特点都给科技人员查找文献增添了困难。

半衰期:是一种表示文献老化速度的概念,指某学科的文献从出版到有50%的内容因老化而失去参考价值所经历的时间。

 

1.1.2 文献类型

1、文献类型按载体形式

2、按加工层次划分

3.按出版类型划分 (一次文献类型)

 

第二节  检索基础

1.2.1  文献检索含义 

    检索(retrieval)就是查找,文献检索就是查找文献,也就是以科学的方法利用专门的工具,从大量的文献资料中迅速、准确、完整地查找到文献资料的过程。

 

广义的文献检索概念包括两个方面:

 ●将文献按一定的方式组织存储起来

 ●根据文献用户的需要找出有关文献

1.2.2 检索的类型

事实检索、数据检索:直接性,确定性

 

文献检索:真对某一研究主题而查找的有参考价值的相关文献的过程,间接性,线索性

目录  catalog

索引 index                   
文摘  abstract

 

 

第三节  检索语言

 

2.3.4.2 关键词语言

船统意义上关键词指出现在文献标题、文摘、正文中,对表达文献内容特征具有实际意义、能够作为检索入口的语词。关键词语言就是将文献正文中能描述主题概念的具有检索意义的词汇抽出,并将抽出词汇按字顺轮排成索引的检索语言。

关键词作为一种自然语言,具有以下特点:

1)关键词语言不受限制,可随时输入新词,能容纳新学科、新类目,能跟踪学科最新发展。

2)关键词抽取于文献标题、文摘和正文,表达文献主题客观、准确,避免了标引人员对文献主题的误读和受控语言表达概念的偏差。

3)关键词语言专指度高,可以使用在标题、文摘、索引、正文中出现的任何一个具有实际意义、反映文献内容的词进行检索,检准率高。

4)关键词检索符合检索者语言习惯和使用习惯,无需更多的专业知识,使用简便。

5)关键词语言标引文献简便、易行,建立索引速度快,甚至在有些数据库和搜索系统中不进行标引。

使用关键词语言编制的关键词索引主要有普通关键词索引、题内关键词索引、题外关键词索引、词对式关键词索引、双重关键词索引等,其中最常使用的是单纯关键词索引和题内关键词索引,如美国《化学题录》(CT)中的“题内关键词索引”、《化学文摘》(CA)中的“关键词索引”。

1.单纯关键词索引

单纯关键词索引纯粹由若干关键词组成的索引。其索引款目一般从题名、文摘或正文中抽出15个关键词,将每一个关键词依次轮流移至款目的左端作为标目,将其余关键词用作说明语,最左端的标目即为检索入口,最右端为文献编号或文献地址,依编号或地址即可找到文献。

如以《电力电子系统计算机仿真和辅助分析》为例,在单纯关键词索引中,抽取的两个关键词进行排形成以下两个款目:

电子电力    计算机仿真和辅助    000001

计算机仿真和辅助    电子电力    000001

检索者可以根据两个关键词中的任何一个检索到文献编号为000001的文献。

单纯关键词索引的编制较为简单,它具有标引深度较大而索引篇幅较小的优点,但由于它不带上下文,没有语法结构,难于判断索引款目的含义,查准率较低。

2.题内关键词索引

题内关键词索引(Keyword in Context Index,简称KWIC),又称上下文关键词索引。文献题名通常具有揭示文献主题内容的作用,从题名中抽取的关键词能有效地将用户指向相关主题的文献,而保留题名中关键词前后的上下文,有助于说明关键词的含义,能更有效地说明文献的主题内容。题内关键词索引首先应用于1960年美国化学文摘社创办的《化学题录》。题内关键词索引的标目在款目的中部,左右均为该标目的上下文,索引款目按位于款目中部作为标目的关键词的字顺排列。格式如下:

上文                 关键词           下文        文献编号(文献地址)

计算机仿真和辅助分析    /电力电子          系统        000001

/电子电力系统           计算机仿真和辅助   分析        000001

题内关键词索引在使用时先查到款目中部的关键词,再从“/”往右读起,读完“/”右侧部分再读“/”左侧部分,最终检索到切题文献。

3.题外关键词索引

题外关键词索引(Keyword out Context Index,简称KWOC,是题内关键词索引的改进形式。与题内关键词索引相比,其标目的位置不在款目的中部而是在款目的左端,标目之后仍保留完整的文献题名,有时文献题名包含的关键词会用符号代替,易读性强且能明确表达文献主题概念。其款目格式一般为:

关键词                   文献题名                         文献编号

电力电子             电力电子系统计算机仿真和辅助分析     000001

计算机仿真和辅助     电力电子系统计算机仿真和辅助分析     000001

题外关键词索引因标目位置突出,款目形式与普通主题索引接近,可读性比题内关键词索引强,符合用户的阅读习惯。但所占篇幅比题内关键词大,并容易造成复合主题的文献在字顺序列索引中被分散在多处。

随着计算机技术和信息技术的发展,关键词语言的优点得到发挥,关键词语言在全文检索、搜索引擎技术中广泛应用并得到进一步发展,自动标引、不受控或很少受控的趋势越来越明显,未来的检索语言发展方向将是较少受控的关键词语言。

 

 

1.2.3    检索工具(检索系统)

   检索是通过检索工具来完成的。

 

1、什么是检索工具?

检索工具是指用于存贮、报道和查找文献的工具.

按检索手段分:手工检索工具、计算机检索工具(系统)

2、检索工具的类型

1)按收录文献的范围划分为:

●综合性:检索工具收录范围广,涉及多门学科。

●专业性:只收录某一学科领域,报道的文献类型可以是多样的。例如:美国的《化学文摘》、《数学评论》

●单一性:只收录某一特种类型的文献,但学科范围可宽可窄。如“世界专利索引”。

 

 

 


2)按揭示文献方式划分

●目录  ●索引  ●文摘  ●全文      

 

 

 


●目录:

 目录是对一批相关文献外部特的提示和报道,是有序的文献清单.目录通常以一个完整的出版单位,如一本书或一种期刊为报道对象

 
 

内容:

馆藏目录

报刊发行目录

全国总书目

全国新书目 等等

 
 

媒体:

 印刷型目录  

 机读型目录  MARC 

  联机公共检索目OPAC

 

●索引:

  是单篇文献外部特征的提示和报道。它以一篇文献为著录单位,如期刊中的一篇文章, 图书中的一部分, 这是它与目录的主要区别。

    如《工程索引》

     《科技会议录索引》

     《全国报刊索引》

辅助检索:是检索工具不可或缺的一部分,是将文献中某些重要的,具有检索意义的内容特征标识或外部特征标识,按某种顺序排列并注明文献条目线索的检索工具。

●文摘

文摘是带有文献内容摘要的,扩展了的索引。

 

3、 印刷性检索工具的结构

①使用说明

②目次--分类类目

③正文

  正文是检索工具的主体,也是一部检索工具书所有款目的有序集合。

④辅助索引

  一般有主题索引、作者索引、文献来源索引和专用索引等。帮助用户从不同的途径或检索点获得“隐藏”在正文中的相关文献

 

第三节  检索语言

1.3.1 检索语言的含义

   检索语言是根据检索的需要而编制的人工语言,又称文献语言、标引语言、索引语言、情报检索语言、信息检索语言、标示系统等,检索语言是信息检索系统存储和检索信息时共同使用的一种约定性语言,以达到信息存储标识和检索的一致性,使标引人员和检索用户利用检索语言通过检索系统实现交流的语言。

信息检索语言的主要功能是沟通信息存储和检索的过程,是信息标引人员和检索用户进行交流的媒介.

   检索的匹配就是通过检索语言的匹来实现的

1.3.2 检索语言的类型及构成原理

 

自然语言

授控语言

 
一、类型

分类语言

主题语言

 

描述内容特征

 

描述外表特征          题名、责任者、编号、序号、其他

 

二、各种检索语言的构成原理

  1.分类语言(人工语言)

 1)分类语言的构成原理

O121 算术

O122 代数

O123 几何

 

 

 

 

 

 
分类所依据的原理,就是对知识概念的划分,任何知识都是一个概念,任何概念都有内涵和外延.概念的外延所指的是一类事物,所以:

  “类”:是具有共同属性的事物的集合.

 

 

 

 

 

 


2) 《中图法》简介

中图法是我国最具代表性的一部分类法分

分五部22个大类。

五部:1、马列主义、毛泽东思想 

   2、哲学 

   3、社会科学 

   4、自然科学

   5、综合性学书

22个大类如下:

A 马列主义、毛泽东思想  O 数理科学和化学

B 哲学                   P 天文学,地球科学

C 社会科学总论           Q 生物科学

D 政治,法律             R 医药,卫生

E 军事                   S 农业科学

F 经济          T 工业技术

G 文化科学教育体育    U 交通运输

H 语言文字        V 航空, 航天

I 文学          X 环境科学、

J 艺术            劳动保护科学                  

K 历史, 地理       Z综合性图书

N 自然科学总论

 

《信息检索概论》祁延莉编. G252.7/Q23-2表示我馆收藏的该作者的第)(索书号的构成)

中图法广泛应用于检索系统中

印刷本检索工具的分类检索目录

  中图法导航检索

 ●论文要求提供中图法分类

2. 主题语言(授控语言)

  主题检索语言是直接以代表文献内容特征和科学

概念作为检索标识,并按其外部形式(字顺)组织起来的

一种检索语言。

   主题语言是一种对自然语言进规范化处理的受控

语言。

为什么对自然语词进行规范化处理?

自然语言中,存在大量的同义词,近义词,相关词,多义词等.:

       计算机, 电脑

     马达, 发动机, 电机

       plane, airplane, aircraft

对自然语言规范后, 形成主题词表.

 

3.关建词语言

传统意义上关键词指出现在文献标题、文摘、正文中,对表达文献内容特征具有实际意义、能够作为检索入口的语词。关键词语言就是将文献正文中能描述主题概念的具有检索意义的词汇抽出,并将抽出词汇按字顺轮排成索引的检索语言。

关键词作为一种自然语言,具有以下特点:

1)关键词语言不受限制,可随时输入新词,能容纳新学科、新类目,能跟踪学科最新发展。

2)关键词抽取于文献标题、文摘和正文,表达文献主题客观、准确,避免了标引人员对文献主题的误读和受控语言表达概念的偏差。

3)关键词语言专指度高,可以使用在标题、文摘、索引、正文中出现的任何一个具有实际意义、反映文献内容的词进行检索,检准率高。

4)关键词检索符合检索者语言习惯和使用习惯,无需更多的专业知识,使用简便。

5)关键词语言标引文献简便、易行,建立索引速度快,甚至在有些数据库和搜索系统中不进行标引。

使用关键词语言编制的关键词索引主要有普通关键词索引、题内关键词索引、题外关键词索引、词对式关键词索引、双重关键词索引等,其中最常使用的是单纯关键词索引和题内关键词索引,如美国《化学题录》(CT)中的“题内关键词索引”、《化学文摘》(CA)中的“关键词索引”。

1.单纯关键词索引

单纯关键词索引纯粹由若干关键词组成的索引。其索引款目一般从题名、文摘或正文中抽出15个关键词,将每一个关键词依次轮流移至款目的左端作为标目,将其余关键词用作说明语,最左端的标目即为检索入口,最右端为文献编号或文献地址,依编号或地址即可找到文献。

如以《电力电子系统计算机仿真和辅助分析》为例,在单纯关键词索引中,抽取的两个关键词进行排形成以下两个款目:

电子电力            计算机仿真和辅助    000001

计算机仿真和辅助    电子电力            000001

检索者可以根据两个关键词中的任何一个检索到文献编号为000001的文献。

单纯关键词索引的编制较为简单,它具有标引深度较大而索引篇幅较小的优点,但由于它不带上下文,没有语法结构,难于判断索引款目的含义,查准率较低。

2.题内关键词索引

题内关键词索引(Keyword in Context Index,简称KWIC),又称上下文关键词索引。文献题名通常具有揭示文献主题内容的作用,从题名中抽取的关键词能有效地将用户指向相关主题的文献,而保留题名中关键词前后的上下文,有助于说明关键词的含义,能更有效地说明文献的主题内容。题内关键词索引首先应用于1960年美国化学文摘社创办的《化学题录》。题内关键词索引的标目在款目的中部,左右均为该标目的上下文,索引款目按位于款目中部作为标目的关键词的字顺排列。格式如下:

上文               关键词             下文      文献编号(文献地址)

计算机仿真和辅助分析 /电力电子          系统        000001

/电子电力系统        计算机仿真和辅助   分析        000001

题内关键词索引在使用时先查到款目中部的关键词,再从“/”往右读起,读完“/”右侧部分再读“/”左侧部分,最终检索到切题文献。

3.题外关键词索引

题外关键词索引(Keyword out Context Index,简称KWOC,是题内关键词索引的改进形式。与题内关键词索引相比,其标目的位置不在款目的中部而是在款目的左端,标目之后仍保留完整的文献题名,有时文献题名包含的关键词会用符号代替,易读性强且能明确表达文献主题概念。其款目格式一般为:关键词                   文献题名                        文献编号

电力电子             电力电子系统计算机仿真和辅助分析     000001

计算机仿真和辅助     电力电子系统计算机仿真和辅助分析     000001

题外关键词索引因标目位置突出,款目形式与普通主题索引接近,可读性比题内关键词索引强,符合用户的阅读习惯。但所占篇幅比题内关键词大,并容易造成复合主题的文献在字顺序列索引中被分散在多处。

随着计算机技术和信息技术的发展,关键词语言的优点得到发挥,关键词语言在全文检索、搜索引擎技术中广泛应用并得到进一步发展,自动标引、不受控或很少受控的趋势越来越明显,未来的检索语言发展方向将是较少受控的关键词语言。

展开阅读全文

Python数据分析与挖掘

01-08
92讲视频课+16大项目实战+源码+¥800元课程礼包+讲师社群1V1答疑+社群闭门分享会=99元   为什么学习数据分析?       人工智能、大数据时代有什么技能是可以运用在各种行业的?数据分析就是。       从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过数据分析进一步挖掘出数据价值,它和编程一样,本质上也是一个工具,通过数据来对现实事物进行分析和识别的能力。不管你从事什么行业,掌握了数据分析能力,往往在其岗位上更有竞争力。    本课程共包含五大模块: 一、先导篇: 通过分析数据分析师的一天,让学员了解全面了解成为一个数据分析师的所有必修功法,对数据分析师不在迷惑。   二、基础篇: 围绕Python基础语法介绍、数据预处理、数据可视化以及数据分析与挖掘......这些核心技能模块展开,帮助你快速而全面的掌握和了解成为一个数据分析师的所有必修功法。   三、数据采集篇: 通过网络爬虫实战解决数据分析的必经之路:数据从何来的问题,讲解常见的爬虫套路并利用三大实战帮助学员扎实数据采集能力,避免没有数据可分析的尴尬。   四、分析工具篇: 讲解数据分析避不开的科学计算库Numpy、数据分析工具Pandas及常见可视化工具Matplotlib。   五、算法篇: 算法是数据分析的精华,课程精选10大算法,包括分类、聚类、预测3大类型,每个算法都从原理和案例两个角度学习,让你不仅能用起来,了解原理,还能知道为什么这么做。
©️2020 CSDN 皮肤主题: 大白 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值