MetaMap程序是如何把生物医学文本有效地匹配到一体化医学语言系统的超级词表的(转)

MetaMap程序是如何把生物医学文本有效地匹配到一体化医学语言系统的超级词表的

已有 4079 次阅读 2008-10-12 08:35|个人分类:生物医学文本挖掘|关键词:文本挖掘;自然语言处理;一体化医学语言系统

文摘:一体化医学语言系统(UMLS)是生物医学领域里面最大的词表,可以用在诸如年决策支持系统、病历管理、信息检索和数据挖掘之中。如何利用UMLS成为目前的重要话题。本文介绍了MetaMap程序是如何把生物医学的文本与UMLS中的超级词表(MetaThesaurus)相匹配,换言之,就是在生物医学文本中发现超级词表中的概念的方法。

MetaMap使用知识密集型的方法:包括了符号、自然语言处理和计算语言学等技术。除了应用于信息检索和数据挖掘,MetaMap是美国国立医学图书馆(NLM)的初步标引系统(indexing initiative system)的基础之一,这个标引系统应用于图书馆半自动和全自动的生物医学文献标引。

概述

目前,把自然语言的文本与生物医学知识库(包括MeSH词表和UMLS)进行匹配的技术得到了长足的发展,例如MicroMeSHCHARTLINE CLARIT等等。

MetaMap的算法

MetaMap是一个把生物医学文本与UMLS超级词表中的概念匹配起来的程序,该程序可以设置很多参数,这些参数用于控制MetaMap的输出以及内部运行(如单词变形的程度、是否忽略超级词表中含有常见词的字串,是否考虑字母的顺序等等)。

1.切分

任一文本都被切分成简单的名词短语,这样就限定了下一步处理的范围,匹配的工作也更加易于管理。使用“专家”系统中的最小承诺切分器对文本进行浅显句法分析[这一句翻译专业术语不够专业,请专家指正],对于在“专家”词典中没有唯一标签的单词,该切分器使用Xerox句子成分标签器标出句子结构(如名词、动词)。例如,对于“ocular complication of myasthenia gravis”(重症肌无力的眼部并发症),切分器发现两个名词短语:“ocular complication”和“of myasthenia gravis”经过简单的句法分析,将“ocular complication”分为“[modocular),headcomplication],指明了complication是短语的中心部分(head),对于标为介词、连词、限定词的单词,以后的处理将忽略之。

2.产生变形体

对于每一个短语,利用“专家”词典以及同义词补充数据库中的知识,产生这些短语的变形体。所谓变形体包括这个短语本身(称之为发源词)以及首字母缩写词、缩写词、同义词和词源变异词,这些词的组合,最后是词形和拼写变形体。其基本过程如下图所示(不包括词形变异计算和拼写变异计算,为了提高效率,这些计算最后进行)。对于ocular这个发源词的变形体产生如下图:

Ocular{[adj]0=””}

Eye{[noun],2=”s”}

Eyes{[noun],3=”si”}

Optic{[adj],4=”ss”}

Ophthalmic{[adj],4=”ss”}

Ophthalmia{[noun],7=”ssd”}

Oculus{[noun],3=”4”}

Oculi{[noun],4=”di”}

这些变形体按照其生成的过程按照树状结构排列,每一变形体后面跟着该变形体的词性,然后是对其与发源词的距离以及过程评分。例如,第一行ocular(形容词)的距离评分为“0”,过程为空(””)。因为它本身就是发源词。同理,名词“ophthalmia”与发源词的距离为“7”,其过程为“ssd”,即它是发源词ocular的同义词“eye[过程标记为s]的同义词ophthalmic[过程标记为s]的词源变形[过程标记为d]

3.检索候选词

经过检索超级词表,检索到包含有至少一个变形体的候选字串集合,可以通过参数来控制此检索过程,如stop_large_n参数可以排除对超级词表中出现2000次以上的单字母变形体和出现1000次以上的双字母变形体。另外,如果可能的话,还可以通过使用特殊的小型索引来提高候选词检索的效率。

4.候选词的评价

对每一个超级词表候选词的评价首先是计算出与输入的短语词相匹配的候选词,然后用4种指标的加权平均组成的语言学评价函数计算输入短语与候选词之间的匹配程度,这4种指标是:中心度(centrality),即包含中心词;变形情况(variation):距离倒数的平均值;覆盖面(coverage)和内敛度(cohesiveness)。后两个指标用于测量候选词与文本的匹配程度和有多少个片段。最后按照匹配程度排列这些候选词。

上面的例子中,短语ocular complication9个候选词如下图所示。如果候选词不是表达该概念的优选词,用括号把优选词显示出来。需要注意的是,所有用户文本中complication相对应的候选词的评分都要比ocular的高,这是因为complication是短语的中心词。

5.建立匹配

把含有短语中相连的各个部分的候选词组合起来,就完成了完整的匹配。完整匹配的强度计算与候选匹配的计算一样。评分最高的完整匹配代表了MetaMap对原始短语的最优的表达。也就是说,对于“ocular complication”短语,其最高评分的完整匹配是“ocular”与“complication”或者“ocular”与“complication specific to antepartum or postpartum”组合。对于“complication”匹配过程说明了MetaMap的最大问题,即含义模糊的问题。两个概念都含有complication字串,MetaMap无法区分之。这个问题在下面一部分可以得到部分的解决。

数据维护

每一次UMLS改版,MetaMap都要更新其数据库文件,包括预先计算变形词表、语义类型和MeSH树状结构号的信息,以及按照超级词表中含有的单词的字串索引。需要力量最多的就是创建单词索引文件。采用4种方式过滤超级词表中的文件(主要是MRCON)。

(1)手工过滤

超级词表中的少量字串会引起问题,需要在进行其它过滤前将其手工过滤掉。如数字、单个字母、特殊的例子如“periods for menstruation”(月经期间)[]和含义模糊。幸运的是超级词表的设计者制定了“可禁止的同义词”的理念,即不能完整表达自己本身的字串或者缩写或者非正式的字串。超级词表中大多数可以导致出现问题的含义模糊都被标上可禁止字串。上面例子中提到的与“complication”匹配的“complication specific to antepartum or postpartum”就是因为没有被标上“可禁止”的例子。以后版本中会解决这个问题。

(2)词汇过滤

词汇过滤是最温和的过滤。就是去掉实际上与表示某一概念的字串相同的字串,造成实际上相同的字串的情况包括:

²  不必要的附加说明。

²  超级词表多义词指示符

²  NEC/NOS变异

²  字法通用:如对有逗号的字串进行重排,除非字串好像是用连词或介词的存在而决定的。

²  大小写变异。

²  连字符变异。

²  拥有[]

词汇过滤就是根据上述标准对某一概念的所有字符串进行规范化,对每一组字串去掉其它的,仅保留一个字串。

(3)类型过滤

除了滤除可禁止同义词,还可以根据术语语义类型(term type TTY)排除一些术语。一般排除的类型包括缩写、过时的或某一种内部结构(如在LOINC中的实验检测描述,LOINC是超级词表组成成分之一)。

(4)句法过滤

最后一种过滤是指一种对超级词表字串本身的切分程序。由于一般的MetaMap处理包括了对文本中发现的简单名词短语的匹配,超级词表字串如果过于复杂不见得达到较好的匹配。这样要把含有一个以上的简单短语的字串也去掉。由于合成短语(含有正常格式的介词短语)很容易处理,所以这样的合成短语不被去除。

由于MetaMap既可用于高密度的语义处理,也可用于浏览,为此建立了三种不同过滤程度的数据模式:

²  严格模式:所有上述的三种过滤都用上。这种选择最适合准确度要求高的语义处理。严格模式包括英语超级词表(共1339479字串)中的70659353%)的字串。

²  中度模式:包括了手工、词汇和类型过滤,但是没有句法过滤。这种方式适合将输入文本作为一个整体来看待而不是分为简单的短语。中度模式包括了982447个字串(73%)。

²  宽松模式:只有手工和词汇过滤,采用这种模式可以获得全部的超级词表的字串,适用于浏览。宽松模式包括了114696286%)的超级词表字串。

超级词表的可用资源:略。

应用:略。



http://blog.sciencenet.cn/blog-82196-42340.html   此文来自科学网崔雷博客,转载请注明出处。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值