来源:EMNLP-IJCNLP2019
原文:https://www.aclweb.org/anthology/D19-1047.pdf
Abstract
对于文本分类,传统的局部特征驱动模型通过深度堆叠或混合建模来学习长距离依赖。本文提出了一种新颖的Encoder1-Encoder2体系结构,其中全局信息被合并到局部特征提取过程中。Encoder1充当全局信息提供者,而Encoder2充当本地特征提取器,并直接输入分类器。同时,还设计了两种模式进行交互。由于具有全局信息的意识,作者提出的方法能够更好地学习实例特定的局部特征,从而避免了复杂的上层操作。在八个基准数据集上进行的实验表明,该体系结构在很大程度上促进了局部特征驱动模型的开发,并且在完全监督的环境下优于以前的最佳模型。
Introduction
文本分类是自然语言处理中的一项基本任务,已广泛用于垃圾邮件检测,情感分析和主题分类等各种应用中。主流方法之一是首先利用显式局部提取器来标识关键局部特征,然后基于它们进行分类。在本文中,作者将此研究领域称为局部特征驱动模型。
许多方法可以归入此范围。在传统的统计机器学习方法中,利用了Ngram这种有效的方法。对于深度神经网络,将局部特征编码为低维分布式ngram嵌入并简单地将其组合已被证明是有效的。
卷积神经网络(CNN)具有强大的捕获局部特征平移不变规律的能力(Kim,2014)。最近,Wang(2018)提出了一种分解递归神经网络(DRNN),该网络利用RNN提取较大窗口的局部特征,并在多个基准测试中取得了最佳结果。
尽管具有良好的可解释性和出色的性能,但是当前的局部特征提取仍然存在一个问题。如表1所示,“Apple”的真正含义只能从整体角度而不是狭窄的窗口中正确识别。如果负责“Apple”的局部提取器从一开始就无法获得“camera”和“neutritional”,那么它将需要复杂且昂贵的上层结构来帮助修改不精确的局部表示并创建新的高级特征。在某种程度上,尤其是在语料不足的情况下,它效率低下且难以训练。
为了解决这个问题,作者认为一种更有效的方法是直接优化局部提取过程。本文提出了一种名为Encoder1-Encoder21的新体系结构。具体而言,Encoder1可以是为简要了解全局背景而设计的,可以是任何一种神经网络模型,而Encoder2应该是典型的局部特征驱动模型。关键是,随后将来自Encoder1的较早生成的全局表示形式合并到Encoder2的局部提取过程中。这样,局部提取器可以利用其自然优势注意到更多的远距离信息。结果,由于全局意识,可以捕获更好的与实例相关的局部特征并将其直接用于分类,这