德州农工大学贺赟：向预训练语言模型注入专业领域知识

AITIME论道

于 2020-11-17 19:33:51 发布

阅读量1.3k

点赞数 3

文章标签：算法机器学习人工智能深度学习自然语言处理

本文链接：https://blog.csdn.net/AITIME_HY/article/details/109760076

版权

⬆⬆⬆ 点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

目前已经有很多工作尝试将外部知识融入到以BERT为代表的预训练语言模型中，它们主要集中在常识（Commonsense Knowledge）和开放领域知识（Open Domain Knowledge）。但是，有很多重要的任务需要用到专业的领域知识（Specialized Domain Knowledge），比如医疗自动问答需要BERT拥有一定的医学知识。

本次AI TIME策划的EMNLP 2020专题报告，特别邀请到来自德州农工大学的贺赟跟大家分享向预训练语言模型注入专业领域知识。

贺赟：德州农工大学(Texas A&M University)博士四年级，导师是James Caverlee教授。研究方向包括推荐系统，信息检索和自然语言处理。

一、前言

EMNLP2020收录了我们最近的两篇文章：

1)Infusing Disease Knowledge into BERT for Health Question Answering, Medical Inference and Disease Name Recognition

https://arxiv.org/pdf/2010.03746.pdf

2)PARADE:A New Dataset for Paraphrase Identification Requiring Computer Science Domain Knowledge

https://arxiv.org/pdf/2010.03725.pdf

在第一篇中，我们将疾病相关的知识（Disease Knowledge）注入到BERT中，在消费者健康问答（Health Question Answering）, 医学语言推理（Medical Language Inference）, 疾病名称识别（Disease Name Recognition）三个任务上都取得了更好的效果。

在第二篇中，我们构建了一个新的paraphrase identification数据集称作PARADE，用于检验自然语言模型是否能很好的融合专业领域知识。比如在下面的例子中，Definition 1 和 Definition 2都是在描述计算机领域中的类型推断（Type Inference）这个概念, 所以它们是同义转述（paraphrase）。但是这两句话极少有相似的表述（Lexical divergence），所以BERT将它们判别为不是同义转述（non-paraphrase）。因此，能否对这样的例子进行正确判断，可以验证模型是否很好的融合了计算机领域的专业知识。