[论文阅读笔记45]ChineseBLUE[MC-BERT]

一,题目

Conceptualized Representation Learning for Chinese Biomedical Text Mining
中文生物医学文本挖掘的概念化表示学习
Ningyu Zhang, Qianghuai Jia, Kangping Yin, Liang Dong, Feng Gao, and Nengwei Hua. 2020. Conceptualized Representation Learning for Chinese Biomedical Text Mining. In WSDM ’20: , February 3–7, 2020, Houston. ACM, New
York, NY, USA, 4 pages. https://doi.org/10.1145/nnnnnnn.nnnnnnn
作者: 阿里巴巴

二,摘要

解决生物医学实验而提出; 因为医学领域中有长尾概念与通过单纯语言模型很难学习的概念。
贡献:引入生物医学的bert并提出一个概念学习表达;发布Chinese Biomedical Language Understanding Evaluation benchmark (ChineseBLUE)
结果: BERT, BERT-wwm,RoBERTa, MC-BERT进行实验,本论文的方法带来显著的成果。

三,背景

生物医学问题:通用的预训练模型很难对生物医学适应;通用的文本分布与医学文本分布有很大的不同;医学概念存在长尾概念;对于中文本身,由于复杂的词结构,显得更复杂。
动机:把生物医学语料与生物学知识同时注入到表示模型中进行训练。
两个问题:(1)如何检索生物医学领域知识;(2)如何利用这些知识进行表示学习。
把知识注入到预训练中是一个比较好的方法。

四,模型

提出:MC-BERT
提出策略:由粗到精把实体与语言领域知识注入到表达学习中;
与bert的区别:
使用不同的掩码生成过程来掩码令牌的跨度,而不是只是随机的。
两种策略:whole entity masking and whole span masking

4.1 Whole Entity Masking

在这个之前有一个概念叫 “whole word masking” ,与之区别是这里mask采用的医学的实体词,不是普通词进行masking.
例如"腹痛"这些生物医学词典的词,利用中文生物医学知识图和生物医学命名实体识别来提取和完善医学领域的实体,包括综合症、死亡、检查、治疗、药物等。

4.2 Whole Span Masking

例如"肚子有一点疼",“腹部一阵一阵痛”,这些词组,采用Whole Entity Masking是解决不了的。
首先使用Autophrase【3】去抽取词组,也从普通的生物医学词组中检索【4】。 根据规则来训练一个生物医学词组,分类器采用fastText【5】;同一单元的词会被全masking.

4.3 Further Pretraining in Biomedical Domain

image-20210712140113155

六,实验

6.1 语料

语源来源自Chinese community biomedical question answering, Chinese medical encyclopedia, Chinese electronic health records (EHR)等方面,整理如下:

image-20210712140705435

6.2 任务

发布了ChineseGLUE平台:

image-20210712141022008

Named Entity Recognition (NER): cEHRNER(来自电子病历的NER), cMedQANER(来自问答论坛的NER)

Paraphrase Identification (PI) :识别两个句子是否表达同一意思, cMedQQ

Question Answering (QA):cMedQNLI,cMeQA

Information Retrieval (IR):cMedIR数据集,采用PAIR评价分数;

Intent Classification (IC) :cMedIC,多标签分类任务;

Text Classification (TC):cMedTC. 多标签多分类任务;

6.3 结果

image-20210712141946741

6.4 分析

以cEHRNER数据来做消融分析:

image-20210712142212861

mc-bert是本文的模型,w/o entity: 表示没有实体策略;w/o span:表示没有采用span那个策略;BERT-wwm:全词策略,RoBERTa:优化bert模型;

七,总结

这个是中文生物医学的一个开端。

五,参考

【1】Conceptualized Representation Learning for Chinese Biomedical Text Mining,https://arxiv.org/pdf/2008.10813.pdf
【2】Conceptualized Representation Learning for Chinese Biomedical Text Mining,https://github.com/alibaba-research/ChineseBLUE
【3】https://github.com/shangjingbo1226/AutoPhrase
【4】https://github.com/alibaba-research/CognitiveConceptGraph

【5】 https://github.com/facebookresearch/fastText

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值