目前,主题自动标引形成的索引均为关键字或关键词的索引.关键词在选择的时候,可以是主题词,也可以是没有经过任何规范化处理过的任意词汇,也就是自由词.用自由词作为关键词进行标引时,用户检索文献的时候就很容易造成误检或者漏检.
如果将近义词、同义词以及多义词规范化地统一处理,将会提高查准率和查全率,而规范处理即为将关键词转换为主题词.
1、汉语关键词自动转换主题词问题的提出
为提高检索效率,主题词有着重要的地位.所以,用主题词作为文献标引,形成检索标识进行检索具有明显优点.
首先,主题词属于规范化词汇,具有单一性的特点,一个词能够准确地表达一个概念,不随时间变化,不被使用者的主观理解和上下文左右,是十分理想的分析元素.
其次,主题词所反应的概念并不是孤立的,它可以通过逻辑组合形成索引标识,来表达文献的中心内容这就有效避免了标引词对文献主题表达不清,检索率不高的问题.用主题词作为检索词进行对中文文本数据的分析与研究,能有效避免由于检索词的不规范性所导致检索数据库中主题标识的冗余或缺失.
主题词是一种专门从自然语言中挑选出来的表达文本内容的词汇,用于文献的标引或检索,再加以规范化,达到了一个词语一个意义的要求的语词.
例如,“玉米”与“苞米”为同义词,在建立主题索引系统时,如果不进行规范和区分,那么在检索时,就会出现检索不全的情况,为此就必须选择“玉米”这个具有使用频率高而又具有单种含义的规范性词语作为主题词.
目前关键词-主题词转换实现方式主要包括3种:人工方式、计算机辅助方式和自动转换方式.1)人工方式,主要依赖智力劳动人工完成对应转换的操作,效率较低,但质量较高.2)自动转换方式,即由计算机根据释义词典、同义词表等各种语义工具通过各种相似度算法自动完成