用于自然语言理解的多任务深度神经网络

1. 摘要

    本文提出了一个多任务深度神经网络(MT-DNN),用于跨多个自然语言理解(NLU)任务学习表示。MT-DNN不仅利用了大量的跨任务数据,而且还受益于正则化效应,从而产生更通用的表示,以帮助适应新的任务和领域。MT-DNN扩展了Liu等人提出的模型,加入了一个预训练的双向transformer语言模型,称为BERT。MT-DNN在10个NLU任务上获得了最先进的结果,包括SNLI、SciTail和9个GLUE任务中的8个,将GLUE基准提升到82.7%(2.2%的绝对改进)。还使用SNLI和SciTail数据集证明,MT-DNN学习的表示法比预先训练的BERT表示法使用更少的域内标签来实现域自适应。代码和预先训练的模型可以通过https://github.com/namisan/mt-dnn公开获得。

2. 介绍

    学习文本的向量空间表示,例如单词和句子,是许多自然语言理解(NLU)任务的基础。多任务学习和语言模型预训练是两种流行的方法。本文结合这两种方法的优点,提出了一种新的多任务深度神经网络(MT-DNN)。
    本文认为MTL和语言模型预训练是互补的技术,可以结合起来改进文本表示的学习,以提高各种NLU任务的性能。因此,本文扩展了Liu等人最初提出的MT-DNN模型,将BERT作为其共享文本编码层。如图1所示,较低的层(如文本编码层)在所有任务中共享,而顶层是特定于任务的,结合了不同类型的NLU任务,如单句分类、成对文本分类、文本相似度和相关性排序。与BERT模型类似,MT-DNN可以通过微调适应特定的任务。与BERT不同的是,MT-DNN使用MTL,除了语言模型的预先训练外,还用于学习文本表示。

3. 提出的MT-DNN模型

在这里插入图片描述
    MT-DNN模型的结构如图1所示。较低层在所有任务之间共享,而顶层表示特定于任务的输出。输入X是一个单词序列(一个句子或组合在一起的一对句子),它首先在l1中被表示为一个嵌入向量序列,每个单词作为一个token。然后,transformer编码器通过自我注意机制获取每个单词的上下文信息,并生成l2中的上下文嵌入序列。这是提出的多任务目标训练的共享语义表示。接下来,对模型进行详细的说明。
由于文章在服务器上,全文内容详见:http://bbit.vip/service/main.php?version=1&type=article&id=15

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值