【2020.6.3】使用单词和图的嵌入来衡量统一医学语言系统概念之间的语义相关性

该研究试图探索使用深度学习技术来衡量统一医学语言系统 (UMLS) 概念之间的语义相关性。

该文章原文与翻译放入资源区自取,这里主要对全文进行理解。

思考一:在生物医学领域,语义相关度的度量一般可以分为基于知识的方法和分布方法。

1基于知识的方法依赖于现有的知识来源,如字典和分类法。最常见的方法包括基于层次关系的寻径措施。
(补充文献:Zhu G, Iglesias CA. Sematch: Semantic similarity framework for knowledge graphs. Knowledge Based Syst 2017; 130: 30–2.)

2.分布方法:依赖于概念在语料库中的分布来计算相关性。基于分布假设,与不相关的概念相比,相关的概念在其分布空间中更为聚集。所使用的药物通常来自于临床文献或科学文献。

基于知识的方法和基于知识的分配的方法都有其优缺点。基于知识的方法通常更实用,因为临床文献可能不容易获得,而且对大型语料库的处理计算成本很高。此外,分布方法的结果因所使用的语料库而异,这可能是标准化和基准测试的一个问题。

统一医学语言系统(UMLS)是语义相关性度量中常用的知识来源。UMLS是由美国开发的一种医学术语资源。UMLS中大量的术语及其关系为支持各种语义关联度量提供了丰富的材料来源。**传统上,这些方法大多更多地关注关系,而不是术语。

随着深度学习的出现,单词嵌入和图嵌入,这些方法可以利用UMLS中的术语和关系进行语义相关性度量。

在这个在研究中,我们使用公开的单词嵌入模型来生成基于UMLS术语的概念句子嵌入。我们采用图嵌入的方法来代替传统的路径计数方法模型来学习UMLS关系的上下文。我们将我们的结果与一些已发表的基于路径的语义相关度量和基于语料库的概念嵌入进行了比较。据我们所知,这是第一个结合单词和图的嵌入来衡量语义关联的研究。

思考二:总体工作

        测试新的嵌入方法(基于单词、基于图)将UMLS中它们能处理的类型转化为嵌入后,再通过这些新方法得到的嵌入来计算原来UMLS中那些概念的相似度。如果通过这些嵌入转化后,概念的相似度与数据集(人类已经给出了原来概念的相似度)结果的一致性高的话,就代表这种嵌入方法是好的,可以用于比较UMLS中术语或者关系之类的语义相似度。

        要比较相似度,还有两种方法:

               1.传统的基于路径方法:(shortest path and Leacock-Chodorow) 

                2.其它的嵌入方法:cui2vec

本文在之前提到的各种数据集与测试任务中,与这些方法进行了对比。

思考三: “概念句子嵌入”是啥?

这个问题可以思考原文。单词嵌入它的语义除了它本身,还要通过周围的单词分布语义来估计。而且可能因为医疗术语比较罕见,这些词拆分成更常用给的子词能更好的表示嵌入。

(例如,“三角洲变形菌门”是由子词“delto”、“蛋白质”和“细菌”组成的)。
因此,在BioWordVec中,你给它一个单词,要生成嵌入,就要给他补充上下文,要补充上下文,最好的工具是bert。但是这个bert你要用的话,要先给它补充一些医疗信息。
综上,这里的实验是这么完成的:
单词嵌入模型,我们使用了BioWordVec和两种公开使用的BERT、 BERT-Rarge(BERT-L)和BlueBERT- Large(BlueBERT-L)。因为BERT允 许用户通过训练额外的语料库来增强它,所以我们创建了第三种口味, BlueBERT-LE,通过使用UMLS中的概念定义来增强BlueBERT-L。我们使用 了2019年AB版本的UMLS,并从MRDEF表中提取了283 491个英文定义。总的来说,只有5.66%的UMLS概念有定义。我们使用NLP工具包spaCy(http://spacy.io ).然后,我们使用BERT开发者提供的脚本,使用Devlin 等人提供的相同词汇表、序列长度和其他配置来增强BlueBERT-L。 17
脚本在UMLS定义语料库上执行了“掩蔽语言模型”和“下一个句子预测 ”。它屏蔽了输入中15%的单词,通过一个深度双向转换编码器运行整个 序列,然后只预测被屏蔽的单词。它还训练模型学习句子之间的关系, 使用一个句子(一个积极的例子),或者只是从语料库中的一个随机句 子(一个消极的例子)。笔记
UMLS的定义仅用于增强BlueBERT-L,而不适用于直接生成概念嵌入。 (防止测试时词嵌入作弊  )使用BERT的一种常见方法是将其与使用特定任务的训练数据的微调步骤相结合。然而,也可以单独使用BERT来生成上下文化的单词嵌入, 而不需要额外的训练数据,这就是我们在本研究中使用BERT的方式。为 了获得句子中每个标记的单个向量,需要一个池化操作来组合一些层向量。使用适当的池化策略(和、平均值、连接等)和层(最后4个隐藏 层,最后一个隐藏层,所有层等)。直接生成固定大小的嵌入能产生比任务微调后的bert略差的结果。

原文如下:

词嵌入
Word嵌入是自然语言处理和机器学习中常用的一种技术。基本上,它是
将单词和短语转化为实数向量的过程。词嵌入的基本要求是具有相似含
义的词应该具有相似的表示。大多数单词嵌入模型都是基于分布语义理
论——文本中单词的含义可以通过观察周围单词的分布来估计。单词
2vec
14是一种被广泛采用的预测性嵌入模型,它使用神经网络来学习单
词的嵌入。由于嵌入罕见的单词可能是很差的估计,快速文本模型15已
被建议通过利用副词来解决这个问题。这种增强与生物医学特别相关,
因为许多罕见的单词可以被分解成更常用的子词(例如,“三角洲变形
菌门”是由子词“delto”、“蛋白质”和“细菌”组成的)。生物字
Vec
16是一个基于FastText的单词嵌入模型,并将生物医学文献中的未
标记文本结合MeSH(医学主题标题)术语中的信息进行训练。
BioWordVec在一些NLP任务中取得了明显优于其他方法的性能。
BioWordVec为一个单词生成相同的嵌入,而上下文化的单词表示可
以根据上下文为一个单词生成不同的单词嵌入。上下文敏感嵌入的最新
化身是BERT(来自变压器的双向编码器表示),17一种可以学习深度双
向表示的多层双向变压器编码器。BERT在各种NLP任务中都显示出了希
望。由于BERT是对一般英语语料库进行的预训练,人们试图通过添加生
物-来提高其在生物医学中的性能在其培训中使用的医学文本。来自国家生物技术信息中心的BlueBERT就
是这样利用PubMed的文章和临床文本,取得了良好的成果。

思考四:图嵌入

一种简化的图神经网络模型,称为图卷积网络(GCNs),它是CNN在图上的一种有效变体。GCNs一直是创建节点嵌入的有效工具,该 节点嵌入为每个节点聚合图邻域中的局部信息。GCN模型在计算每个节点的卷积时也可以采用相同的聚合方案,这可以被认为是一种正则化的方法,并提高了效率。 27 gcn已经在一些基准图数据集上取得了最先进的结果 26,28 在各种应用领域,如社交网络 29 和自然语言处理。 30
然而,现有的关于gcn的研究大多集中在学习简单无向图中节点的表示上。对于更一般和普遍的图类,知识图嵌入是近年来活跃的研究领域之一。许多知识图的嵌入方法已经被提出。
基于翻译的方法,如 TransE 31 它的变体,模型关系作为实体低维嵌入的翻译操作。
基于语义匹配的方法,如全息嵌入模型(HolE), 32 DistMult, 33 以及它在复杂 空间中的扩展(copleex), 34 通过基于相似度的分数函数计算每个三次得分的分数。
我们使用GCN和4种知识图嵌入方法(TransE、HolE、DistMult和 CompIEx)来生成图嵌入。我们将UMLS表示为图,将概念表示为节点, 将关系表示为边。
我们只使用了来自SNOMED CT(医学临床术语的标准 化命名法)和MedDRA(针对监管活动的医学词典)的分层(亲子关系)关系。

我们选择SNOMED CT和MedDRA是因为SNOMED CT是UMLS中最全面的 临床术语,而MedDRA是我们的评估参考标准之一中的术语的来源。对于 MedDRA,我们还包括了“分类为”关系。严格来说,MedDRA中的“分类 为”关系并不是亲子关系。它们代表了MedDRA中较低级别术语和首选术 语之间从窄到宽的关系。我们从SNOMED CT和MedDRA中提取了层次关系MRREL表。所得到的图包含406 240个节点和899 151条边。

图编码器对关系关系进行无监督学习,将预测与基于GCN的变分图自动编码器模型连接起来 35 或者是使用UMLS概念和关系作为输入值的知识图嵌入模型。当使用一个约束器(节点)作为预先训练好的图嵌入模型的输 入时,该模型返回的关系学习表示为 嵌入向量,基于潜在学习表示帽
从训练图的数据中可以看出。例如,在通过GCN进行方向传播后,嵌入向量紧密相连 ,类似于图中的社区结构。因此, 概念“流感 ”和“肺炎”(它们是兄弟姐妹)的嵌入载体之间的距离远小于概念“流 感”和“动脉粥样硬化”的载体之间的距离(间隔5跳)。对于所有的图 嵌入模型,我们使用了文献中建议的常见设置:epoch数为200,嵌入维数 为200,优化器为Adam优化器, 36 ,学习率为0.001。和博德斯等人一样, 31 我们对TransE、HolE、DostMult和CompIEx使用了基于边际的成对排名 损失。

思考四:结论

        这篇文章能为语义相似性的自动度量提供一些思考。
嵌入方法通常通过内在或外在的任务来评估。内在的任务涉及到语义相关的度量
单词、句子或概念之间的关系。外部任务包括下游的文本处理任务,如信息检索或词义消歧(WSD)。我们使用内在任务(UMLS概念之间的语 义相关性)和外部任务(WSD)来评估我们的嵌入,并与其他已发表的 方法进行了比较。
数据集:
语义相关性测量
我们使用了3个语义相关性的参考标准。
第一个是手动注释的UMNSRS-亲 缘性数据集,由587对UMLS概念组成,其相应的亲缘性得分由明尼苏达 大学医学院的领域专家手动判断。
第二个是UMNSRS-相似度 数据集,它由566对UMLS概念组成,以及它们的关联支持手动判断的相似度评分。
第三个参考标准是基于标准化的MedDRA查询(SMQs)。创建smq是为 了通过将与特定不良反应相关的MedDRA术语分组在一起,以提高药物不良反应信号的检测。
方法:
我们分别使用了BioWordVec生成的概念句子嵌入和3种类型的BERT,GCN生成的概念图嵌入,以及4个知识图嵌入模型。我 们还使用了性能最好的句子和图嵌入的组合(连接),以查看一个组合
的方法是否会表现得更好。
为了与我们的概念嵌入进行比较,我们使用了一组公开的UMLS概念嵌入,称为cui2vec,它是基于临床和书目数据的大型语料库生成的。
39 在cui2vec中,首先对语料库与包含SNOMED CT概念的UMLS概念进行 归一化,然后使用单词嵌入工具Word2vec生成UMLS概念的嵌入。 Cui2vec为可识别的108 477个UMLS概念提供了概念嵌入。我们以同样的方法使用cui2vec概念嵌入的余弦值来度量语义相关性。
我们还将我们的结果与两种传统的不涉及深度学习的基于知识的( 基于路径的)语义关联度量进行了比较:最短路径度量 40 和利科克-乔多罗测量。 41 最短路径度量使用了2个UMLS概念之间的最短距离的倒数 。利亚科克-乔多罗方法使用了两个概念之间的最短距离除以路径的深度的负对数。
路径是由图嵌入模型使用的相同图计算的。
指标:
为了比较不同的语义相关度度量,对于UMN数据集,我们计算了不同方法产生的语义相关度得分与参考标准中的得分之间的斯皮尔曼相关性 。对于SMQ参考标准,我们使用了接收者工作特征图中的曲线下面积(AUC)
结果:
UMNSRS-亲 缘性数据集
结果汇总见表1。BioWordVec优于所有单独使用的方法。BioWordVec和 图形(GCN)嵌入的组合具有最好的整体性能。Cui2vec优于所有BERT嵌 入,但Cui2vec与GCN组合的性能较差。BlueBERT-LE的性能是三种上下 文词嵌入中最好的,且略优于图嵌入。GCN在5个图嵌入模型中最好,优 于传统的基于路径的测量。
UMNSRS-相似性数据集
结果汇总见表2。与UMNSRS相关性数据集相比,所有方法的Spearman相关性都更高,但总体趋势非常相似。与亲缘数据集不同,cui2vec与GCN 的结合优于单独使用cui2vec,但仍BioWordVec差。GCN在相似性数据 集上的表现优于BlueBERT-L,但仍然不如BlueBERT-LE好。
SMQ数据集
不同测量值的接收机工作特性曲线如图2-4所示。2个基于路径的测量值 (图2中的紫色线)的曲线完全重叠,因为它们对大多数数据点产生了 相同的结果。他们的曲线也更有棱角,因为许多概念对都有相同的得分 。与UMN数据集相似,BioWordVec是表现最好的单次测量。与UMN数据集
不同,崔2vec的性能在所有方法中最差。GCN图嵌入优于最好的BERT嵌 入(BlueBERT-LE),这反过来又优于基于路径的测量。同样,组合的 单词和图形嵌入的整体性能最好。
在我们的评估中使用的10 000个随机选择的概念对(包括积极和消极的例子)中,只有6对在MedDRA中通过亲子关系连接。当我们从图嵌入中省略MedDRA关系时,GCN的AUC从0.8029略有下降到0.7960,这并不影响总体顺序。
词义消歧
我们的模型使用不同的单词嵌入获得的精度得分如表3所示。BlueBERTLE和BlueBERT-L在WSD任务中的表现优于BioWordVec。对于MSH-WSD数据 集,所有的嵌入方法都显著优于大多数感觉基线0.549,这是通过为每 个实例分配最频繁的概念来实现的。 43
讨论
单词和图嵌入的组合效果最好,明显优于现有的一些基于语料库的概念嵌入和基于路径的测量方法。
我们的方法有几个优点。首先,一方面,它可以应用于所有的UMLS 概念,因为所有的UMLS都有术语和关系,用于生成概念、句子嵌入和图嵌入。另一方面,cui2vec只涵盖了在其语料库中被识别的UMLS概念, 即约为10万个(2.3%)的UMLS概念。其次,我们的方法不涉及UMLS之外的资源。与依赖于附加文本语料库的方法相比,我们的方法更容易实现 ,而且对处理能力和时间的要求更低。
【下面这一段的意思是数据本身的特征可能会使一些数据在层次或者图上面表示不好,一些方法可能在语义中表现不好。这也一定程度解释了为什么图+语义方法一起嵌入的效果最好】
此外,不同的语料库可能会产生不同的结果。我们的方法仅基于UMLS, 结果通常应该是可重复的——这是基准和比较研究的基本要求。第三, 我们的方法在不同的语义相关性数据集上具有一致的良好性能。正如我 们的研究所显示的,现有的语义相关测量可能会根据手头任务的表现有
很大的差异。UMN数据集由许多概念对组成,这些概念对在现有术语( 如苍白和铁)中没有分层关联,因此基于路径的度量和图嵌入的性能不如我们的句子嵌入或基于语料库的cui2vec。
另一方面,来自SMQ数据集 的所有概念都来自MedDRA,并且属于相同的语义类型(如视网膜母细胞 瘤和眼部异常)。它们也更有可能通过等级关系直接或间接地联系起来 (而不仅仅是那些来自MedDRA的关系)。这就解释了为什么基于路径的 测量和图嵌入优于SMQ数据集的cui2vec和一些句子嵌入。BioWordVec句 子嵌入在所有数据集中都优于其他所有句子嵌入,并且可以通过结合图 嵌入来进一步改进。
作为外部参考,我们对语义相关性和语义相似度数 据集的最佳结果为分别为0.59和0.63,比较优于Pakhomov等人, 10 他 们使用了从大型生物医学语料库中学习到的嵌入数据(最佳结果分别为
0.58和0.62)。
在SMQ数据集上,我们的最佳性能为0.89 AUC,明显优于Bill等人(0.827)。 38 对于外部任务,我们的单词嵌入在MSH-WSD数据集中表现得相当好,其准确性(0.753-0.805)与Pakhomov等人相当
(准确性0.740-0.777)相当。 10 与语义相关性相反,BERT在WSD中优于 BioWordVec,这可能是由于BERT的上下文敏感性。
我们的研究表明,与传统的路径计数相比,图嵌入是一种更好的捕 获概念之间的关系信息的方法。虽然GCN始终优于基于路径的测量,但 其他的图嵌入模型则不那么令人印象深刻。我们的结果还表明,可以结 合单词和图的嵌入来提高性能。在图嵌入之前,图的数学和统计操作通 常受到限制,将机器学习方法直接应用于图是具有挑战性的。图嵌入图转换为向量,这在机器学习中更容易处理。这也打开了将图形数据与 其他数据相结合的可能性

思考五:拓展

1.图+语义嵌入效果最好,但相似度也仅0.6左右,这种方法能否用于其它任务效果存疑。

2.图嵌入的方法不只是能用于相似度比较,一些图的数学与统计形式哪些能通过向量表示?

3.BioWordVec的嵌入效果挺好的,可以直接用。

4.基于原有的传统路径计数为何效果不好?

  • 14
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值