主题词是计算机自动提取,汉语关键词自动转换主题词方法的步骤

本文探讨了汉语关键词自动转换为主题词的重要性,旨在提高检索效率和准确性。通过词法分析、词频统计和主题词表匹配,实现了关键词到主题词的转换。方法包括分词处理、筛选统计和主题词存储,使用了ICTCLAS分词工具和电子版中国分类主题词表。
摘要由CSDN通过智能技术生成

0e7f62f6514008f06cd6c5c006650430.png

目前,主题自动标引形成的索引均为关键字或关键词的索引.关键词在选择的时候,可以是主题词,也可以是没有经过任何规范化处理过的任意词汇,也就是自由词.用自由词作为关键词进行标引时,用户检索文献的时候就很容易造成误检或者漏检.

如果将近义词、同义词以及多义词规范化地统一处理,将会提高查准率和查全率,而规范处理即为将关键词转换为主题词.

1、汉语关键词自动转换主题词问题的提出

为提高检索效率,主题词有着重要的地位.所以,用主题词作为文献标引,形成检索标识进行检索具有明显优点.

首先,主题词属于规范化词汇,具有单一性的特点,一个词能够准确地表达一个概念,不随时间变化,不被使用者的主观理解和上下文左右,是十分理想的分析元素.

其次,主题词所反应的概念并不是孤立的,它可以通过逻辑组合形成索引标识,来表达文献的中心内容这就有效避免了标引词对文献主题表达不清,检索率不高的问题.用主题词作为检索词进行对中文文本数据的分析与研究,能有效避免由于检索词的不规范性所导致检索数据库中主题标识的冗余或缺失.

主题词是一种专门从自然语言中挑选出来的表达文本内容的词汇,用于文献的标引或检索,再加以规范化,达到了一个词语一个意义的要求的语词.

例如,“玉米”与“苞米”为同义词,在建立主题索引系统时,如果不进行规范和区分,那么在检索时,就会出现检索不全的情况,为此就必须选择“玉米”这个具有使用频率高而又具有单种含义的规范性词语作为主题词.

目前关键词-主题词转换实现方式主要包括3种:人工方式、计算机辅助方式和自动转换方式.1)人工方式,主要依赖智力劳动人工完成对应转换的操作,效率较低,但质量较高.2)自动转换方式,即由计算机根据释义词典、同义词表等各种语义工具通过各种相似度算法自动完成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值