Abstract
很多 NLP 领域的深度学习模型集中于研究输入的组合性,这需要很大的计算量。
我们提出一种简单的深度神经网络模型,在情感分析和事实类问答任务上性能可以比肩(甚至在某些情况下还能超过)这些复杂模型,而只需要很少的训练时间。
虽然我们的模型是句法无知的,但通过增加模型的深度并且应用一种新颖的 dropout 方法,相比于之前的 bag-of-words 模型,性能获得显著提升。
在句法差异比较大的数据集上,我们的方法比基于句法的模型表现更好。
基于句法的模型与我们的模型在复杂输入上会犯相似的错误,这意味着对于我们考虑的任务而言,对输入的非线性变换似乎比定制一个可以考虑词序和句法的模型更加重要。
Introduction
为了将句向量应用于 sentence 或者 document,必须首先选择一个组合函数,其作用是将多个单词的向量表示组合为一个向量。
这种组合函数可以分为两类:
- unordered
- syntactic
Unordered 方法将输入文本看做 bags of word embeddings, syntactic 方法会考虑词序和句子结构。之前的研究表示在很多任务上后者的性能都优于前者。
然而,这里存在一个 tradeoff: syntactic 方法需要更多的计算时间,这在大数据集和计算资源受限的场景下将会显得过于代价昂贵。
我们提出一个深度无序模型,可以获得接近 SOTA 的性能并且在普通的笔记本电脑上只需几分钟的训练时间。这个模型称为 deep averaging network (DAN), 其基本原理如下: