古籍文献计算机检索,相关检索

最新推荐文章于 2023-04-25 19:53:43 发布

weixin_39732316

最新推荐文章于 2023-04-25 19:53:43 发布

阅读量383

点赞数

文章标签：古籍文献计算机检索

检索是指从文献资料、网络信息等信息集合中查找到自己需要的信息或资料的过程。相关检索是指使用关键词检索时，除得到相应的检索结果之外，还会得到一些检索词有关的关键词，一般具有较高的检索效率相关检索技术是网络信息检索系统所特有的技术之一。。

中文名

相关检索基本检索技术

编辑

语音

字段限定检索

字段限定检索是把检索词限定在某个/些字段中，达到优化检索结果的方法。用户有两种方式进行字段限定检索。第一，可以利用索引检索或高级检索模式下的关键字检索下拉菜单将检索词限定在特定的字段。第二，可用字段标识符进行检索词字段限定检索。格式为：字段标识符缩写后空一格接检索词(即：字段标识符缩写检索词)，例如，TI hypertension表示检索标题中含hypertension字段的文献；AU Zuo X表示检索作者Zuo X的文章。

布尔逻辑检索

CINAHL数据库支持布尔逻辑检索，也是该库最基本、最重要的运算方式，利用布尔逻辑运算符对若干个检索词进行组合以表达检索要求的方法。布尔逻辑运算符包括“逻辑与”(AND)、“逻辑或”(OR)、“逻辑非”(NOT)3种(表1)，输入大小写均可。上述3种布尔逻辑运算符可以单用，也可组合使用。布尔逻辑运算优先顺序为：( )>NOT>AND>OR。即先算括号内的，再依次算NOT，其次AND，最后OR。括号( )可改变运算顺序，将需要优先运算者置于圆括号中。例如：查找“维生素C或维生素E对糖尿病患者肾脏的保护作用”，检索提问式为：(维生素C or 维生素E)and 糖尿病 and 肾。

截词检索

截词检索(truncation searching)是指利用检索词的词干或不完整的词形进行检索，也称通配符检索、词干检索或字符屏蔽检索。截词检索隐含着布尔逻辑检索的“逻辑或”运算，因此，使用截词检索可扩大检索范围，避免漏检，且减少输入多次的麻烦。但采用截词检索既要灵活又要谨慎，截词部位要适当，若截太短(输入字符不得少于3个)，将增加检索噪声，影响查准率。常用截词方式包括有限截词和无限截词2种。有限截词：指允许截去有限个字符。截断符常用“？”表示，代表1个字符，也可连续使用多个。词干后面连续的数个问号是截断符，最后一个是终止符，终止符与截断符之间有一个空格，输入时定要切记。无限截词：又称任意截词/开放式截词，指允许截去的字符数量不限。截词符常用“*”表示，代表零个或多个字符或一个字符串。按照截词部位不同，无限截词常包括右截词(截去词尾部，词前方一致)、左截词(截去词前部，词后方一致)、中间截词(截去词的中间部分，词两边较一致)和复合截词(同时采用两种以上的截断方式)。

位置检索

位置算符表示两个检索词之间的位置邻近关系，用于表示词与词之间的相互关系和前后次序，通过对检索词之间位置关系的限定，可增强选词指令的灵活性，提高检索的查全率和查准率。常见的位置算符包括“N”算符和“W算符”。

短语检索

短语检索又称精确检索/词组检索，是将一个词组或短语用双引号“”引起作为一个独立运算单元，进行严格匹配，以提高查准率。这种方法与模糊检索/概念检索相区别，要求检索结果必须含有与检索表达式完全相同(包括次序)的字串，需完全匹配。倘若含有停用词(stopword)则可能检索不出结果。[3]

相关检索构建过程

为了具体实现楚辞古籍实体款目之间的相关性，我们利用本体论思想和本体建模工具构建楚辞书目本体。Perez 等人按分类法组织和归纳出了本体包含的 5 个基本的建模元语( modeling primitive) ，这些元语分别为类( classes) 、关系( relations) 、函数( functions) 、

公理( axioms) 和实例( instances) 。楚辞书目本体的构建基于上文对楚辞书目相关性的详尽分析，并参照了FRBR 概念关系模型、Perez 的五元组分类法，以《楚辞书目五种》对楚辞相关文献的归纳与划分的书目结构为素材，利用本体建模元语构建的楚辞书目本体共包括 35个本体类，24个对象属性，20个数据类型属性，约5300个实例。

创建楚辞书目本体的类

本体类是一种特殊的资源，它描述了具有共同特征或者在某方面相似的资源的集合。楚辞书目本体的类基于《楚辞书目五种》以及表 1 对楚辞等古籍实例间的关联分析，划分出了35个基本本体类。

定义楚辞书目本体的对象属性

对象属性是实体间的联系，在资源描述中充当谓语作用。依据《楚辞书目五种》及其涉及的楚辞相关古籍的背景和内容，构建了24个楚辞书目本体的对象属性。定义域指定了使用当前待描述属性的陈述中充当主语的所有个体的类型。值域指定了所有个体的类型或者所有文字的数据类型，并且这些个体或文字在使用当前待描述属性的陈述中充当宾语。

确定楚辞书目本体的数据类型属性

数据类型属性用来连接实体的一些文字值，它不可以作为陈述的主语，只能做为宾语。比如人名的字、号、笔名、官职等，书目的出版地、内容等，馆藏图书的版本、版本类型、版本注释、版本形态、版本评论等，音乐作品的曾用名、作url 地址等。例如描述人名实体用 string 类型，描述年龄实体int类型等。

用 protégé 工具实现楚辞书目本体

本文采用protégé 软件来实现楚辞书目本体的可视化，该软件提供了很好的可视化界面操作，可以很方便地添加类和属性，可以生成 xml、 turtl、 rdf 或 owl 格式的本体文件，并提供有 Sparql 查询接口、 pellet 推理机和 SWRL规则语言编辑添加接口等大量插件。将类和属性添加到本体中后，可在 ontoGraf 标签下看到加入对象属性之后类之间完整的关联关系图。在书目各实体款目类间出现了可能的多种关联关系，这为古籍目录相关性的深入研究和关联检索的实现提供了可能性。

通过 “创作关联 ” 、“年代关联” 以及“地名关联” 三个实例具体分析楚辞书目本体类之间的属性关系: ①创作关联。作者与作品通过一对相反属性 owl:isCreatorOf 与 owl: isCreatedBy 构成了楚辞文献类或参见作品类与人名类之间的创作关联。在 protégé 工具的预览图中，可以看到创作关联的关联效果。②年代关联。年代关联通过一对相反对象属性 owl: isHap-penedTimeAt 与 owl: isHappenTimeOf 或其他表示时间相关的对象属性对来关联。③地名关联。楚辞相关古籍文献中很多事件都与地点相关，通过一对相反的对象属性 owl: isHappenedPlaceAt 与 owl: isHappen-PlaceOf 或其他表示地点相关的对象属性对来关联。

各种简单关联合并之后使楚辞书目本体形成了复杂的关联关系，也正是由于存在这些复杂的关联才使得本文对古籍书目相关性研究具有很重要的意义，并且为楚辞书目语义关系查询提供了可能。