Conceptualized Representation Learning for Chinese Biomedical Text Mining
作者:Ningyu Zhang, Qianghuai Jia, Kangping Yin, Liang Dong, Feng Gao, Nengwei Hua
作者单位:Alibaba Group
项目地址:https://github.com/alibaba-research/ChineseBLUE
预训练模型:mc_bert_base.tar.gz
- 背景
总结:生物医学领域的中文预训练以及评测基准数据集。
拟解决的问题:如何检索生物医学领域知识;如何在模型预训练中利用生物医学领域的知识。
2. 方法
(1)Whole Entity Masking
解决的问题:遮盖类似于”腹痛“的医疗实体,将这种医疗知识显式地注入模型中。
步骤:
1)使用实体命名识别预测医疗实体;
2)使用中文医疗知识图谱后处理实体。
(2)Whole Span Masking
解决的问题:医疗实体还不足够,医疗文本中存在类似”