基于词汇链的预案主题抽取方法研究

本文提出了一种基于词汇链的预案主题抽取模型,针对应急预案的文本特点,采用自然语言处理技术改进词汇链生成算法,提出多因素词语权重算法。实验表明,该模型在查全率和查准率上表现出色,适用于应急决策中的主题知识抽取。
摘要由CSDN通过智能技术生成
  rel="File-List" href="file:///C:%5CDOCUME%7E1%5C%E7%BD%97%E5%BF%97%E6%88%90%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_filelist.xml"> rel="Edit-Time-Data" href="file:///C:%5CDOCUME%7E1%5C%E7%BD%97%E5%BF%97%E6%88%90%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_editdata.mso"> rel="OLE-Object-Data" href="file:///C:%5CDOCUME%7E1%5C%E7%BD%97%E5%BF%97%E6%88%90%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_oledata.mso">

基于词汇链的预案主题抽取方法研究

裘江南 [1]  罗志成2  王延章1

(1.大连理工大学管理学院,大连,1160242.武汉大学信息管理学院,武汉,430072)

 

摘要:  本文针对应急预案自动主题抽取的需求,致力于词汇语义相关度的计算,构建了一个基于词汇链算法且符合人的主观感受的主题抽取模型。模型根据应急预案文本的特点,运用了若干自然语言处理技术,改进了原始的词汇链生成算法,提出了一种多因素词语权重算法。最终,通过与人工主题词抽取的实验结果相比较,该主题提取模型在查全率和查准率上都取得了较好的效果。

关键词  主题抽取,词汇链,语义相关,应急预案

 

Research on Semantic Relatedness Based Subjects Extraction from Emergency Plans

 

Qiu Jiangnan1   Luo Zhicheng2  Wang Yanzhang1

(1.School of Management of Dalian University of Technology, Dalian 116024,

2. School of Information Management, Wuhan University , Wuhan 430072)

 

Abstract:   The paper aimed at the requirement of the automatic extraction of subject from the emergency plans, took up with the measures of lexical semantic relatedness, and has constructed a subject extraction model based on the lexical chain algorithm which accords with human’s subjective feeling. According to the characteristics of the emergence plans text and the needs of the project, the model used a number of natural language processing methods, improved the original chain generating algorithm, and brought forward a weight algorithm base on multi-factors. Finally, an experimental was carried out which compared the human subject extraction results to our system result, and the recall and the precision showed that our model do a good job.

Keywords   Subject Extraction, Lexical Chain, Semantic Relatedness, Emergency Plans

 

1         引言

应急管理的过程中,预案是应急决策和指挥者依法处置的法律依据,应急决策相关主题知识段落可能是一篇预案文本、一篇预案文本的一部分或几篇预案文本各部分的集合。随着中央政府、各部委、各地方政府发布的预案数量与日剧增。因此,能够快速、准确、全面地从众多预案中提取相关文本信息是应急辅助决策信息系统的主要功能,而其中的核心基础是实现从大量的文本中抽取出用户相关的主题性知识段落。传统的全文检索方法可以提供文本段落的定位功能,但是全文检索的核心是关键字符的机械式匹配,所以经常出现检索不全、答非所问的结果[1],因而传统全文检索方式难以满足应急管理的需要。

本文针对预案的文本特点,采用预案文本结构化和文本章节主题抽取的信息组织方法,为快速准确的知识定位和检索打下基础。有关中文主题抽取和标引方面学术界已作了较多的研究,具体包括:1)王永成等人[2]建立了中文文献主题自动标引系统,提出了采用实词的相对频率、特征词,并结合词形聚类的主题关键词加权标引算法。2)李素建等[3]提出了利用最大熵模型进行关键词自动标引的方法,由于特征参数估计的误差,导致最终查全率和查准率都不理想。3)索红光等人[4]提出一种基于词汇链的主题抽取方法,并取得了较好的效果,但该项研究由于采用刘群[5]的没有提供标准接口的《知网》相似度计算软件包,导致词汇链算法的使用受到很多限制。

基于词汇链的主题抽取方法是近年来提出的一种新方法,而最初引入词汇链的主要目的是用于分析文本的结构。应急预案是一种较为规范和结构性较好的文本,因此,对预案的主题抽取和标引可采用基于词汇链的方法。

 

2         系统分析

2.1          词汇链算法分析

       词汇链算法是MorrisHirst1991提出的[6],其中词汇链是指一个主题下的一系列相关的词共同组成的词系列。词汇链算法的原理是:在文章中描述某个主题的文本块内,使用的词语应该是相关的,这些相关词语构成一条词汇链。所以,词汇链可以视作一个语言片段的标志性主题词语链,不同的词汇链对应了不同的语言片段。因此,一旦词汇链确定,那么文章的结构也就确定了。

MorrisHirst最初使用词汇链的目的是用于文本分割,即分析文本的结构。其基本想法是:由于词汇链是一系列相关的词所组成的,这些词表达的是同一件事情或意思,找到这些链就得到了文本的结构。后来这一基本想法在很多方面得到了应用,比如文本检索、信息抽取、检查文本的用词不当等。

目前国内对于词汇链的研究较少。最早的是刘素红[7]等人对词汇链算法的介绍,之后有尤文建[8]基于词汇链构建文本过滤模型。另外,索红光[4]利用改进的词汇链算法和刘群开发的《知网》相似度计算软件包,提出了一种关键词抽取方法,但是实验结果的查全率和查准率都比较低。陈燕敏等人[9-10]将词汇链算法应用于自动文本摘要,实验结果表明,他们算法的查全率和查准率都比较高。

基于上述分析,本文考虑首先将一篇文本中的词汇按照它们的词义相关度构建多个词汇链,然后按照一定的规则从中挑选出能够代表文本主题的关键词。其中,度量词汇语义相关性是生成词汇链的基础,根据文献[11]的实验结果,本研究在词汇链的生成中采用基于语义词典的语义相关度量方法。

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值