[论文阅读笔记45]ChineseBLUE[MC-BERT]

最新推荐文章于 2024-04-17 09:55:06 发布

happyprince

最新推荐文章于 2024-04-17 09:55:06 发布

阅读量2.1k

点赞数 2

分类专栏： NLP 文章标签：机器学习人工智能深度学习自然语言处理

本文链接：https://blog.csdn.net/ld326/article/details/118685409

版权

NLP 专栏收录该内容

79 篇文章 6 订阅

订阅专栏

一，题目

Conceptualized Representation Learning for Chinese Biomedical Text Mining
中文生物医学文本挖掘的概念化表示学习
Ningyu Zhang, Qianghuai Jia, Kangping Yin, Liang Dong, Feng Gao, and Nengwei Hua. 2020. Conceptualized Representation Learning for Chinese Biomedical Text Mining. In WSDM ’20: , February 3–7, 2020, Houston. ACM, New
York, NY, USA, 4 pages. https://doi.org/10.1145/nnnnnnn.nnnnnnn
作者：阿里巴巴

二，摘要

解决生物医学实验而提出; 因为医学领域中有长尾概念与通过单纯语言模型很难学习的概念。
贡献：引入生物医学的bert并提出一个概念学习表达；发布Chinese Biomedical Language Understanding Evaluation benchmark (ChineseBLUE)
结果： BERT, BERT-wwm,RoBERTa, MC-BERT进行实验，本论文的方法带来显著的成果。

三，背景

生物医学问题：通用的预训练模型很难对生物医学适应；通用的文本分布与医学文本分布有很大的不同；医学概念存在长尾概念；对于中文本身，由于复杂的词结构，显得更复杂。
动机:把生物医学语料与生物学知识同时注入到表示模型中进行训练。
两个问题：（1）如何检索生物医学领域知识；（2）如何利用这些知识进行表示学习。
把知识注入到预训练中是一个比较好的方法。

四，模型

提出：MC-BERT
提出策略：由粗到精把实体与语言领域知识注入到表达学习中；
与bert的区别：
使用不同的掩码生成过程来掩码令牌的跨度，而不是只是随机的。
两种策略：whole entity masking and whole span masking

4.1 Whole Entity Masking

在这个之前有一个概念叫 “whole word masking” ，与之区别是这里mask采用的医学的实体词，不是普通词进行masking.
例如"腹痛"这些生物医学词典的词，利用中文生物医学知识图和生物医学命名实体识别来提取和完善医学领域的实体，包括综合症、死亡、检查、治疗、药物等。

4.2 Whole Span Masking

例如"肚子有一点疼"，“腹部一阵一阵痛”，这些词组，采用Whole Entity Masking是解决不了的。
首先使用Autophrase【3】去抽取词组，也从普通的生物医学词组中检索【4】。根据规则来训练一个生物医学词组，分类器采用fastText【5】；同一单元的词会被全masking.

4.3 Further Pretraining in Biomedical Domain

六，实验

6.1 语料

语源来源自Chinese community biomedical question answering, Chinese medical encyclopedia, Chinese electronic health records (EHR)等方面，整理如下：

6.2 任务

发布了ChineseGLUE平台:

Named Entity Recognition (NER): cEHRNER(来自电子病历的NER), cMedQANER（来自问答论坛的NER）

Paraphrase Identification (PI) ：识别两个句子是否表达同一意思， cMedQQ

Question Answering (QA)：cMedQNLI，cMeQA

Information Retrieval (IR)：cMedIR数据集，采用PAIR评价分数；

Intent Classification (IC) ：cMedIC，多标签分类任务；

Text Classification (TC)：cMedTC. 多标签多分类任务；

6.3 结果

6.4 分析

以cEHRNER数据来做消融分析：

mc-bert是本文的模型，w/o entity: 表示没有实体策略；w/o span：表示没有采用span那个策略；BERT-wwm：全词策略，RoBERTa：优化bert模型;

七，总结

这个是中文生物医学的一个开端。

五，参考

【1】Conceptualized Representation Learning for Chinese Biomedical Text Mining，https://arxiv.org/pdf/2008.10813.pdf
【2】Conceptualized Representation Learning for Chinese Biomedical Text Mining，https://github.com/alibaba-research/ChineseBLUE
【3】https://github.com/shangjingbo1226/AutoPhrase
【4】https://github.com/alibaba-research/CognitiveConceptGraph

【5】 https://github.com/facebookresearch/fastText

happyprince

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
5
评论
[论文阅读笔记45]ChineseBLUE[MC-BERT]

一，题目Conceptualized Representation Learning for Chinese Biomedical Text Mining中文生物医学文本挖掘的概念化表示学习Ningyu Zhang, Qianghuai Jia, Kangping Yin, Liang Dong, Feng Gao, and Nengwei Hua. 2020. Conceptualized Representation Learning for Chinese Biomedical Text Min
复制链接

扫一扫

专栏目录