用于自然语言理解的多任务深度神经网络

最新推荐文章于 2024-06-08 09:44:57 发布

ShenggengLin

最新推荐文章于 2024-06-08 09:44:57 发布

阅读量1.2w

点赞数

分类专栏：自然语言处理文章标签：神经网络自然语言处理深度学习

本文链接：https://blog.csdn.net/ShenggengLin/article/details/107662428

版权

自然语言处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. 摘要

本文提出了一个多任务深度神经网络(MT-DNN)，用于跨多个自然语言理解(NLU)任务学习表示。MT-DNN不仅利用了大量的跨任务数据，而且还受益于正则化效应，从而产生更通用的表示，以帮助适应新的任务和领域。MT-DNN扩展了Liu等人提出的模型，加入了一个预训练的双向transformer语言模型，称为BERT。MT-DNN在10个NLU任务上获得了最先进的结果，包括SNLI、SciTail和9个GLUE任务中的8个，将GLUE基准提升到82.7%(2.2%的绝对改进)。还使用SNLI和SciTail数据集证明，MT-DNN学习的表示法比预先训练的BERT表示法使用更少的域内标签来实现域自适应。代码和预先训练的模型可以通过https://github.com/namisan/mt-dnn公开获得。

2. 介绍

学习文本的向量空间表示，例如单词和句子，是许多自然语言理解(NLU)任务的基础。多任务学习和语言模型预训练是两种流行的方法。本文结合这两种方法的优点，提出了一种新的多任务深度神经网络(MT-DNN)。
本文认为MTL和语言模型预训练是互补的技术，可以结合起来改进文本表示的学习，以提高各种NLU任务的性能。因此，本文扩展了Liu等人最初提出的MT-DNN模型，将BERT作为其共享文本编码层。如图1所示，较低的层(如文本编码层)在所有任务中共享，而顶层是特定于任务的，结合了不同类型的NLU任务，如单句分类、成对文本分类、文本相似度和相关性排序。与BERT模型类似，MT-DNN可以通过微调适应特定的任务。与BERT不同的是，MT-DNN使用MTL，除了语言模型的预先训练外，还用于学习文本表示。

3. 提出的MT-DNN模型

在这里插入图片描述
MT-DNN模型的结构如图1所示。较低层在所有任务之间共享，而顶层表示特定于任务的输出。输入X是一个单词序列(一个句子或组合在一起的一对句子)，它首先在l₁中被表示为一个嵌入向量序列，每个单词作为一个token。然后，transformer编码器通过自我注意机制获取每个单词的上下文信息，并生成l₂中的上下文嵌入序列。这是提出的多任务目标训练的共享语义表示。接下来，对模型进行详细的说明。
由于文章在服务器上，全文内容详见：http://bbit.vip/service/main.php?version=1&type=article&id=15