Multi-Task Deep Neural Networks for Natural Language Understanding阅读笔记

本文介绍了MT-DNN,一种结合多任务学习和语言模型预训练的深度神经网络,用于自然语言理解。MT-DNN通过共享层和任务特定层结构,适用于多种NLU任务,如单句分类、文本对分类、相似度评分和相关性排名。在预训练和多任务微调阶段,模型分别进行了mask语言模型和多个任务损失函数的优化,实验表明MT-DNN在GLUE、SNLI和SciTail等数据集上表现出色。
摘要由CSDN通过智能技术生成

MT-DNN

Introduction

学习文本的向量空间表达对许多自然语言理解问题都很重要.
现在两个比较流行的方法是

  • multi-task learning
  • language model pre-training

在这篇论文中, 作者提出结合两种方法的网络–Multi-Task Deep Neural Network(MT-DNN).

1. Multi-Task learning

multi-task learning优点:

  • 监督学习往往需要大量的标注样本, 但有时候标注数据并不容易取得. MTL可以利用相关的多个任务的标注数据来训练.
  • MTL获益于正则化, 可以避免发生对一个特定任务出现过拟合.

2. language model pretraining

语言模型预训练借助大量无标注数据进行预训练.比如最近很火的ELMo, GPT, BERT都是采用预训练的思想. 对于特定的下游任务, 利用预训练模型进行fine-tuning就可以获得不错的效果.

目前的做法都是采用其中一个方法去训练, 但是作者认为以上两种方法其实是可以互补的.

MT-DNN在训练上和BERT类似, 包括两个阶段: pre-training和fine-tuning.
不同的是, MT-DNN在fine-tuning阶段进行multi-tasks learning.

Tasks

MT-DNN包含了四个NLU任务:

  • single-sentence classification
  • pairwise text classification
  • text similarity scoring
  • relevance ranking

Model

模型包括两大部分:

  • Shared layers
  • Task specific layers

Shared layers

shared layer包括两个encoder:

  • lexicon encoder
  • transformer encoder

对于一个输入 X X X, 首先通过lexicon encoder层 l 1 l1 l1得到embedding vectors, 然后, 在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值