德州农工大学贺赟:向预训练语言模型注入专业领域知识

⬆⬆⬆              点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

目前已经有很多工作尝试将外部知识融入到以BERT为代表的预训练语言模型中,它们主要集中在常识(Commonsense Knowledge)和开放领域知识(Open Domain Knowledge)。但是,有很多重要的任务需要用到专业的领域知识(Specialized Domain Knowledge),比如医疗自动问答需要BERT拥有一定的医学知识。

本次AI TIME策划的EMNLP 2020专题报告,特别邀请到来自德州农工大学的贺赟跟大家分享向预训练语言模型注入专业领域知识。

贺赟:德州农工大学(Texas A&M University)博士四年级,导师是James Caverlee教授。研究方向包括推荐系统,信息检索和自然语言处理。

一、 前言


EMNLP2020收录了我们最近的两篇文章:

1)Infusing Disease Knowledge into BERT for Health Question Answering, Medical Inference and Disease Name Recognition

https://arxiv.org/pdf/2010.03746.pdf

 

2)PARADE:A New Dataset for Paraphrase Identification Requiring Computer Science Domain Knowledge

https://arxiv.org/pdf/2010.03725.pdf

 

在第一篇中,我们将疾病相关的知识(Disease Knowledge)注入到BERT中,在消费者健康问答(Health Question Answering), 医学语言推理(Medical Language Inference), 疾病名称识别(Disease Name Recognition)三个任务上都取得了更好的效果。

 

在第二篇中,我们构建了一个新的paraphrase identification数据集称作PARADE,用于检验自然语言模型是否能很好的融合专业领域知识。比如在下面的例子中,Definition 1 和 Definition 2都是在描述计算机领域中的类型推断(Type Inference)这个概念, 所以它们是同义转述(paraphrase)。但是这两句话极少有相似的表述(Lexical divergence),所以BERT将它们判别为不是同义转述(non-paraphrase)。因此,能否对这样的例子进行正确判断,可以验证模型是否很好的融合了计算机领域的专业知识。

PARADE数据集已经公开,欢

  • 3
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值