题目
UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual Embeddings Using the Unified Medical Language System Metathesaurus == 2020==
滑铁卢大学
使用UMLS的Metathesaurus进行上下文embedding的临床领域知识的增强
研究的问题
对于类似BioBert,Bio_ClinicalBERT这些预训练模型没有加入结构化专家数据;
使用UMLS机制,通过知识增强的策略去训练UmlsBERT,具体两个方法:
(i)连接在UMLS中具有相同“概念”的单词;
(ii)利用UMLS中的语义类型知识来创建具有临床意义的输入嵌入;
在NER与临床自然语言推理两任务上优于以前。
研究方法
数据
Multiparameter Intelligent Monitoring in Intensive Care III (MIMIC-III)
UmlsBERT:MIMIC-III训练,主要是在NO-TEEVENTS table上训练。
关于评估
-
English MedNLI natural language inference task
-
four i2b2 NER tasks
使用临床知识增强上下文嵌入
Semantic type embeddings
语义类型的嵌入–ST – D_s * d – d是bert的隐含层维度,Ds上UMLS的语义种类;
the open-source Apache clinical Text Analysis and Knowledge Extraction System (cTakes)
在于ST_sw中,当ST_sw中的词在UMLS中没识别出来的为全零向量。
Updating the loss function of Masked LM task
损失函数[多标签损失函数]
实验部分
评价
相关工作
ELMo --> BERT --> Sense-BERT --> GlossBERT
BioBERT --> Bio_ClinicalBERT
参考
https://github.com/gmichalo/UmlsBERT
https://aclanthology.org/2021.naacl-main.139.pdf
[1] Michalopoulos G , Wang Y , Kaka H , et al. UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual Embeddings Using the Unified Medical Language System Metathesaurus[J]. 2020.