[论文阅读笔记49]UmlsBERT

最新推荐文章于 2024-09-01 18:31:41 发布

happyprince

最新推荐文章于 2024-09-01 18:31:41 发布

阅读量421

点赞数

分类专栏： NER NLP 文章标签：机器学习自然语言处理

本文链接：https://blog.csdn.net/ld326/article/details/118946383

版权

NLP 同时被 2 个专栏收录

79 篇文章 6 订阅

订阅专栏

NER

39 篇文章 14 订阅

订阅专栏

题目

UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual Embeddings Using the Unified Medical Language System Metathesaurus == 2020==
滑铁卢大学
使用UMLS的Metathesaurus进行上下文embedding的临床领域知识的增强

研究的问题

对于类似BioBert,Bio_ClinicalBERT这些预训练模型没有加入结构化专家数据；
使用UMLS机制，通过知识增强的策略去训练UmlsBERT,具体两个方法：
(i)连接在UMLS中具有相同“概念”的单词;
(ii)利用UMLS中的语义类型知识来创建具有临床意义的输入嵌入;
在NER与临床自然语言推理两任务上优于以前。

研究方法

数据
Multiparameter Intelligent Monitoring in Intensive Care III (MIMIC-III)
UmlsBERT：MIMIC-III训练，主要是在NO-TEEVENTS table上训练。
关于评估

English MedNLI natural language inference task
four i2b2 NER tasks

使用临床知识增强上下文嵌入

Semantic type embeddings

语义类型的嵌入–ST – D_s * d – d是bert的隐含层维度，Ds上UMLS的语义种类；

the open-source Apache clinical Text Analysis and Knowledge Extraction System (cTakes)

在于ST_sw中，当ST_sw中的词在UMLS中没识别出来的为全零向量。

Updating the loss function of Masked LM task

损失函数[多标签损失函数]

实验部分

评价

参考

https://github.com/gmichalo/UmlsBERT
https://aclanthology.org/2021.naacl-main.139.pdf
[1] Michalopoulos G , Wang Y , Kaka H , et al. UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual Embeddings Using the Unified Medical Language System Metathesaurus[J]. 2020.