深度学习文本分类文献综述(翻译自Deep Learning Based Text Classification: A Comprehensive Review)


原文链接:https://arxiv.org/pdf/2004.03705.pdf

摘要

在各种文本分类任务中,基于深度学习的模型已经超越了经典的基于机器学习的方法,包括情感分析、新闻分类、问答和自然语言推理。在本次研究工作中,我们详细回顾了150多个基于深度学习的文本分类模型,并讨论了它们的技术贡献、相似性以及各自的优势。我们还总结了40多个广泛用于文本分类的流行数据集。最后,我们定量分析了不同深度学习模型在基准数据集上的表现,并讨论了未来的研究方向。

介绍

文本分类是自然语言处理(NLP)中的一个经典问题,其目的是为句子、查询、段落和文档等文本单元分配标签或标记。它有着广泛的应用,包括问答、垃圾邮件检测、情感分析、新闻分类、用户意图分类、内容调节等。文本数据可以来自不同的来源,例如web数据、电子邮件、聊天、社交媒体、机票、保险索赔、用户评论、客户服务的问题和答案等等。文本是一个极其丰富的信息源,但由于其非结构化的性质,从中提取有效信息是一个非常耗时的过程。
文本分类可以通过手动注释或自动标记来执行。随着工业应用中文本数据规模的不断扩大,文本自动分类变得越来越重要。自动文本分类的方法可分为三类:

  • 基于规则的方法(Rule-based methods);
  • 基于机器学习(数据驱动)的方法(Machine learning based
    methods);
  • 混合方法(Hybrid methods)。

基于规则的方法使用一组预定义的规则将文本分类为不同的类别。例如,任何带有“football”、“basketball”或“basketball”字样的文档都会被指定“sport”标签。这些方法需要对领域有深入的了解,并且系统很难维护。另一方面,基于机器学习的方法学习根据过去对数据的观察进行分类。机器学习算法利用预先标注的样本作为训练数据,学习文本片段与其标注之间的内在关联。因此,基于机器学习的方法能够检测数据中隐藏的模式,具有更高的可伸缩性,可以应用于各种任务。这与基于规则的方法不同,后者需要为不同的任务设置不同的规则。顾名思义,混合方法使用基于规则和机器学习方法的组合来进行预测。
机器学习模型近年来受到了广泛的关注。大多数经典的基于机器学习的模型遵循两步过程,第一步从文档(或任何其他文本单元)中提取一些手工制作的特征,第二步将这些特征输入分类器进行预测。一些流行的手工制作功能包括Bag of Words (BoW)及其扩展。常用的分类算法包括朴素贝叶斯、支持向量机(SVM)、隐马尔可夫模型(HMM)、梯度增强树和随机森林。两步方法有几个局限性。例如,依赖手工制作的特性需要繁琐的特性工程和分析来获得良好的性能。此外,特征设计对领域知识的强烈依赖性使得该方法很难推广到新的任务中。最后,这些模型不能充分利用大量的训练数据,因为特征(或特征模板)是预定义的。
从2012年开始,一个基于深度学习的模型AlexNet[1]在ImageNet的竞赛中大获全胜。从那时起,深度学习模型被广泛应用于计算机视觉和自然语言处理的任务中,提高了技术水平[2–5]。这些模型试图以端到端(End to End)的方式学习特征表示和执行分类(或回归)。它们不仅有能力发现数据中隐藏的模式,而且在不同的应用程序之间更容易转移。毫不奇怪,近年来这些模型正成为各种文本分类任务的主流框架。
在本次研究中,我们回顾了过去六年中为各种文本分类任务开发的150多种深度学习模型,包括情感分析、新闻分类、主题分类、问答(QA)和自然语言推理(NLI)。我们根据这些工作的神经网络结构将其分为几个类别,例如基于递归神经网络(RNN)、卷积神经网络(CNN)、注意机制(Attention)、Transformers、胶囊网络(Capsule Nets)等的模型。本文的主要内容可以总结如下:

  • 详细概述了超过150个深度学习模型提出的文本分类方法;
  • 回顾了40多个流行的文本分类数据集;
  • 在16个基准数据集上对一组选定的深度学习模型的性能进行了定量分析;
  • 讨论了目前文本分类问题的挑战和未来方向。

1. 文本分类任务

本节简要介绍了本文讨论的不同文本分类任务:情感分析、新闻分类、主题分析、问答和自然语言推理。
情感分析Sentiment Analysis. 情感分析是文本分类的一个热门分支,旨在分析文本数据(如产品评论、电影评论和推特)中人们的观点,并提取他们的情感倾向。情感分类可以是二元问题,也可以是多类问题。二元情感分析是将文本分为正类和负类,而多类情感分析则侧重于将数据分为细粒度标签或多级强度。
新闻分类News Categorization. 新闻内容是对人们产生重大影响的最重要的信息来源之一。新闻分类系统可以帮助用户实时获取感兴趣的信息。识别新兴新闻主题和基于用户兴趣推荐相关新闻是新闻分类的两个主要应用。
主题分析Topic Analysis. 主题分析试图通过识别文本的主题来自动地从文本中获取意义。主题分类是主题分析的重要组成部分。主题分类的目的是为每个文档分配一个或多个主题,以便于分析。
问答Question Answering (QA). QA系统有两种类型:抽取式和生成式。抽取式QA可以看作是文本分类的一个特例。给定一个问题和一组候选答案(例如,文献[6]中给定文档中的文本跨度),我们需要将每个候选答案分类为正确与否。生成性QA学习从零开始生成答案(例如使用Sequence-to-Sequence模型)。除非另有说明,本文讨论的质量保证任务是抽取式质量保证。
自然语言推理Natural language inference (NLI). 自然语言推理也被称为识别文本蕴涵(RTE),预测一个文本的意义是否可以从另一个文本中推断出来。特别是,系统需要为每一对文本单元分配一个标签,例如蕴涵、矛盾和中性[7]。释义是NLI的一种广义形式,也称为文本对比较。这项任务是衡量一个句子对的语义相似性,以确定一个句子是否是另一个句子的转述。

2.文本分类中的深度模型

在本节中,我们将回顾针对各种文本分类问题提出的150多个深度学习框架。为了更容易理解,我们根据这些模型的主要架构贡献,将其分为以下几类:

  • 基于前馈网络的模型(第2.1节)。
  • 基于RNN的模型,将文本视为一个单词序列,旨在捕获单词相关性和文本结构(第2.2节)。
  • 基于CNN的模型,用于识别文本中的模式,如关键短语,以进行分类(第2.3节)。
    Capsule网络,解决CNN汇集操作所造成的信息丢失问题,最近已应用于文本分类(第2.4节)。
  • 注意机制,有效识别文本中的相关词,并已成为开发深度学习模型的有用工具(第2.5节)。
  • 记忆增强网络(Memory-augmented networks),将神经网络与外部记忆形式相结合,模型可以读取和写入(第2.6节)。
  • Transformers,它允许比RNN更多的并行化,使得使用GPU集群高效(预)训练非常大的语言模型成为可能(第2.7节)。
  • 图神经网络,用于捕捉自然语言的内部图结构,如句法和语义分析树(第2.8节)。
  • Siamese Neural Networks,专为文本匹配而设计,是文本分类的特例(第2.9节)。
  • 混合模型,将注意力、RNN、CNN等结合起来,以捕捉句子和文档的局部和全局特征(第2.10节)。

2.1 Feed-Forward Neural Networks

前馈网络是文本表示的最简单的深度学习模型之一。然而,它们在许多文本分类基准上取得了很高的准确率。这些模型将文本视为一袋单词。对于每个单词,他们使用嵌入模型(如word2vec[8]或Glove[9])学习向量表示,将嵌入的向量和平均值作为文本的表示,将其通过一个或多个前馈层,称为多层感知器(MLP),然后使用逻辑回归、朴素贝叶斯或SVM等分类器对最后一层的表示进行分类[10]。这些模型的一个例子是深度平均网络(DAN)[10],其结构如图1所示。尽管它很简单,但DAN优于其他更复杂的模型,这些模型被设计用来明确地学习文本的组成性。例如,DAN在高语法方差的数据集上优于语法模型。Joulin等人[11]提出了一种简单有效的文本分类器fastText。与DAN一样,fastText将文本视为一袋单词。与DAN不同,fastText使用n-grams作为附加功能来捕获本地词序信息。这在实践中证明是非常有效的,同时获得了与显式使用词序的方法相当的结果[12]。
在这里插入图片描述
Fig. 1. The architecture of the Deep Average Network (DAN) [10]
Le和Mikolov[13]提出了doc2vec,它使用一种无监督算法来学习可变长度文本片段的定长特征表示,例如句子、段落和文档。如图2所示,doc2vec的架构类似于CBOW模型的架构[8,14]。唯一的区别是通过矩阵𝐷映射到段落向量的附加段落标记。在doc2vec中,这个向量与三个单词上下文的连接或平均值被用来预测第四个单词。段落向量表示当前上下文中缺少的信息,可以作为段落主题的记忆。在训练之后,段落向量被用作段落的特征,并且被馈送到分类器以进行预测。Doc2vec发表后,在一些文本分类和情感分析任务上取得了最新的成果。
在这里插入图片描述
Fig. 2. The doc2vec model [13].

2.2 RNN-Based Models

基于RNN的模型将文本视为一个单词序列,旨在捕获单词相关性和文本结构以进行文本分类。然而,传统的RNN模型并不能很好地工作,并且常常表现得不如前馈神经网络。在众多RNN变体中, LSTM是最流行的体系结构,其设计目的是更好地捕获长期依赖关系。LSTM通过引入一个存储单元来记忆任意时间间隔内的值,并引入三个门(输入门、输出门、遗忘门)来调节进出单元的信息流,从而解决了RNNs所遇到的梯度消失或爆炸问题。通过获取更丰富的信息,如自然语言的树结构、文本中的大跨度词关系、文档主题等,已经有了改进RNNs和LSTM文本分类模型的工作。
Tai等人[15]开发了一个树形LSTM模型,将LSTM推广到树结构网络类型,以学习丰富的语义表示。作者认为,对于自然语言处理任务,树型LSTM是一种比链式LSTM更好的模型,因为自然语言具有将单词自然地组合成短语的句法特性。实验结果验证了Tree-LSTM在情感分类和预测句子语义相关性两个方面的有效性。这些模型的架构如图3所示。Zhu等人[16]还将链式结构的LSTM扩展到树结构,使用存储单元存储递归过程中的多个子单元格或多个子单元格。他们认为,新模型提供了一种原则性的方法来考虑跨层次结构(例如,语言或图像解析结构)的远程交互。
在这里插入图片描述
Fig. 3. (Left) A chain-structured LSTM network and (right) a tree-structured LSTM network with arbitrary branching factor [15].
为了建立机器阅读的大跨度单词关系模型,Cheng等人[17]用存储网络代替单个存储单元来扩充LSTM体系结构。该模型在语言建模、情感分析和自然语言识别等方面取得了良好的效果。
多时间尺度LSTM(MT-LSTM)神经网络[18]也被设计用来构建长文本模型,通过捕获不同时间尺度有价值的信息,如句子和文档。MT-LSTM将标准LSTM模型的隐藏状态划分为若干组。每个组在不同的时间段被激活和更新。因此,MT-LSTM可以为很长的文档建模。据报道,MT-LSTM在文本分类方面优于一系列基准模型,包括基于LSTM和RNN的模型。
RNN擅长捕捉单词序列的局部结构,但在记住长程依赖关系时面临困难。相比之下,潜在主题模型能够捕获文档的全局语义结构,但不考虑词序。Bieng等人[19]提出了一个Topic RNN模型来综合RNNs和潜在主题模型的优点。它使用RNN捕获局部(语法)依赖,使用潜在主题捕获全局(语义)依赖。据报道,Topic RNN在情绪分析方面优于RNN基线。
还有其他有趣的基于RNN的模型。Liu等人[20]使用多任务学习来训练RNN,以利用来自多个相关任务的标记训练数据。Johnson和Rie[21]探索了一种使用LSTM的文本区域嵌入方法。Zhou等人[22]将双向LSTM(Bi LSTM)模型与二维池化层结合起来,以捕获文本特征。Wang等人[23]提出了“匹配聚合”框架下的双边多视角匹配模型。Wan等人[24]利用双向LSMT模型生成的多个位置句表示来探索语义匹配。

2.3 CNN-Based Models

RNN被训练成跨时间识别模式,而CNN则学习跨空间识别模式[25]。RNN在需要理解远程语义的NLP任务(如词性标注或QA)中工作得很好,而CNN在检测局部和位置不变模式很重要的任务中工作得很好。这些模式可能是表达“我喜欢”或“濒危物种”等特定情感的关键短语。因此,CNNs已经成为最流行的文本分类模型体系结构之一。
Kalchbrenner等人提出了第一个基于CNN的文本分类模型。该模型采用动态池化层,称为动态CNN(DCNN)。如图4所示,DCNN的第一层使用对句子中的每个单词向量来构造句子矩阵。然后,使用卷积结构,将卷积层与动态池化层交替使用,在句子上生成能够显式捕获单词和短语的短距离和长距离关系的特征映射。池化层参数𝑘可以根据句子大小和卷积层次结构中的级别动态选择。
在这里插入图片描述
Fig. 4. The architecture of DCNN model [26].
后来,Kim[27]提出了一种比DCNN更简单的基于CNN的文本分类模型。如图5所示,Kim的模型仅在从无监督神经语言模型(即word2vec)获得的单词向量上使用一层卷积。Kim还比较了四种学习单词嵌入的不同方法:(1)CNN rand,所有单词嵌入都随机初始化,然后在训练期间进行修改;(2)CNN static,使用预先训练好的word2vec嵌入,并在模型训练期间保持固定;(3)CNN non static,在训练期间对word2vec嵌入进行微调每个任务的训练;和(4)CNNmulti channel,其中使用两组单词嵌入向量,两组都使用word2vec初始化,其中一个在模型训练期间更新,而另一个固定。据报道,这些基于CNN的模型改进了情感分析和问题分类的最新技术。
在这里插入图片描述
Fig. 5. The architecture of a sample CNN model for text classification. courtesy of Yoon Kim [27].
人们一直在努力改进基于CNN的模型的架构[26,27]。Liu等人[28]提出了一种新的基于CNN的模型,对Kim CNN的架构进行了两次修改[27]。首先,采用动态池化层从文档的不同区域获取更细粒度的特征。第二,在池化层和输出层之间插入一个隐藏的瓶颈层,学习紧凑的文档表示,以减小模型尺寸,提高模型性能。在[29,30]中,作者没有使用预先训练好的低维词向量作为CNNs的输入,而是直接将CNNs应用到高维文本数据中,学习小文本区域的嵌入情况进行分类。
字符级CNN也被用于文本分类[31,32]。第一个这样的模型是由Zhang等人提出的[31]。如图6所示,该模型以固定大小的字符作为输入,编码为One-Hot,将它们通过由六个具有池化的卷积层和三个全连接层组成的深度CNN模型。Prusa等人[33]提出了一种使用CNN编码文本的方法,该方法大大减少了学习字符级文本表示所需的内存消耗和训练时间。这种方法可以很好地适应字母表的大小,允许保留来自原始文本的更多信息以提高分类性能。
在这里插入图片描述
Fig. 6. The architecture of a character-level CNN model [31].
受VGG[34]和ResNets[35]的启发,Conneau等人[36]提出了一个非常深层的CNN(VDCNN)文本处理模型。它直接在字符级操作,并且只使用小的卷积和池化操作。研究表明,VDCNN的性能随着深度的增加而提高。Duque等人[37]修改了VDCNN的结构,以适应移动平台的限制并保持性能。他们能够将模型尺寸压缩10到20倍,精确度损失在0.4%到1.3%之间。Le等人[38]表明,当文本输入被表示为一系列字符时,深层模型确实比浅层模型的性能要好。然而,一个简单的浅宽网络比DenseNet[39]等具有单词输入的深层模型的性能要好。Guo等人[40]研究了单词嵌入的影响,并提出通过多通道CNN模型使用加权单词嵌入。Zhang等人[41]研究了不同的词嵌入方法和池机制的影响,发现使用非静态的word2vec和GloVe优于One-Hot向量,max-pooling始终优于其他池化方法。
还有其他有趣的基于CNN的模型。Mou等人[42]提出了一种基于树的CNN来捕捉句子级语义。Pang等人[43]将文本匹配作为图像识别任务,并使用多层CNN识别显著的n-gram模式。Wang等人[44]提出了一个基于CNN的模型,将短文本的显式和隐式表示结合起来进行分类。将CNN应用于生物医学文本分类也越来越有兴趣[45–48]。

2.4 Capsule Neural Networks

CNNs通过使用连续的卷积层和池化对图像或文本进行分类。尽管池化可以识别显著的特征并降低卷积运算的计算复杂度,但它们会丢失有关空间关系的信息,并且可能会基于方向或比例对实体进行错误分类。
为了解决池化的问题,Geoffrey Hinton提出了一种新的方法,称为胶囊网络(CapsNets)[49,50]。胶囊是一组神经元,其活动向量表示特定类型实体(如对象或对象部分)的不同属性。向量的长度表示实体存在的概率,向量的方向表示实体的属性。与CNN的最大池(选择一些信息并丢弃其余信息)不同,胶囊将下层的每个胶囊“路由”到上层的最佳父胶囊,使用网络中直到最后一层的所有可用信息进行分类。路由可以使用不同的算法来实现,例如协议动态路由[50]或EM算法[51]。
最近,胶囊网络被应用于文本分类,胶囊被用来表示一个句子或文档作为一个向量。[52–54]提出了一种基于CapsNets变体的文本分类模型。该模型由四层组成:(1)n-gram卷积层,(2)胶囊层,(3)卷积胶囊层,和(4)完全连接的胶囊层。作者尝试了三种策略来稳定动态路由过程,以减轻包含背景信息(如停止词或与任何文档类别无关的词)的噪声胶囊的干扰。他们还探索了两种胶囊结构,如图7所示,分别表示为胶囊-A和胶囊-B。胶囊-A类似于[50]中的CapsNet。Capsule-B在n-gram卷积层使用三个具有不同窗口大小的过滤器的并行网络来学习更全面的文本表示。CapsNet-B在实验中表现较好。
在这里插入图片描述

Fig. 7. CapsNet A and B for text classification [52].
Kim等人[55]提出的基于CapsNet的模型使用了类似的架构。该模型由以下部分组成:(1)输入层,将文档作为一个单词嵌入序列;(2)卷积层,生成特征映射并使用选通线性单元保留空间信息;(3)卷积胶囊层,通过聚集卷积层检测到的局部特征来形成全局特征;以及(4)文本胶囊层来预测类标签。作者观察到,物体在文本中比在图像中更能自由组合。例如,一个文档的语义可以保持不变,即使某些句子的顺序发生了变化,这与眼睛和鼻子在人脸上的位置不同。因此,他们使用静态路由模式,这在文本分类方面始终优于动态路由[50]。Aly等人[56]提出将CapsNet用于层次多标签分类(HMC),认为CapsNet编码子-父关系的能力使得它比传统方法更好地解决HMC任务,在HMC任务中,文档被分配一个或多个以层次结构组织的类标签。他们模型的架构与[52,53,55]中的类似。
Ren等人[57]提出了CapsNets的另一种变体,它使用胶囊之间的组合编码机制和基于𝑘-均值聚类的新路由算法。首先,使用码本中的所有码字向量形成单词嵌入。然后,通过𝑘-均值路由将低层胶囊捕获的特征聚合到高层胶囊中。

2.5 Models with Attention Mechanism

注意力机制是由如何将视觉注意力集中在图像的不同区域或一个句子中的单词关联起来而激发的。注意力成为发展NLP深度学习模型的一个越来越流行的概念和有用的工具[58,59]。简言之,语言模型中的注意力可以解释为重要性权重向量。为了预测句子中的一个词,我们使用注意向量来估计它与其他词的关联程度,或“注意到”其他词,并将它们的加权值之和作为目标的近似值。
本节回顾了一些最突出的注意力模型,这些模型在文本分类任务上创造了新的技术状态。
Yang等人[60]提出了一种用于文本分类的分级注意网络。该模型具有两个显著的特点:(1)反映文档层次结构的层次结构;(2)在词和句两个层次上应用注意机制,使其在构建文档表示时能够区别地关注更多和更少的重要内容。在六个文本分类任务上,该模型比以前的方法有很大的优势。Zhou等人[61]将层次注意模型扩展到跨语言情感分类。在每种语言中,都使用LSTM网络对文档进行建模。然后,通过使用分层注意机制实现分类,其中句子级注意模型学习文档中哪些句子对确定整体情绪更重要。而单词级注意模型则学习每个句子中哪些单词是决定性的。
Shen等人[62]提出了一个用于RNN/CNN自由语言理解的定向自我注意网络,其中来自输入序列的元素之间的注意是定向的和多维的。采用一种轻量级的神经网络来学习句子嵌入,完全基于所提出的注意,没有任何RNN/CNN结构。Liu等人[63]提出了一个具有NLI内在关注的LSTM模型。该模型采用两阶段过程对句子进行编码。首先,在词级BILSTM上使用平均池来生成第一阶段的句子表示。其次,采用注意机制来代替同一句话的平均集中,以获得更好的表征。句子的第一阶段表征是用来修饰出现在句子中的词。
注意模型也被广泛应用于成对排序或匹配任务。Santos等人[64]提出了一种双向注意机制,称为注意池(AP),用于成对排序。AP使得池化层能够以来自两个输入项的信息可以直接影响彼此表示的计算的方式感知当前输入对(例如,问题-答案对)。除了学习输入对的表示之外,AP还联合学习对的投影段上的相似性度量,并随后为每个输入导出相应的注意向量以指导合用。AP是独立于底层表示学习的一般框架,并且可以应用于CNN和RNN,如图8(a)所示。Wang等人[65]将文本分类视为一个标签词匹配问题:每个标签与词向量嵌入在同一个空间中。作者引入了一个注意框架,它通过余弦相似性度量文本序列和标签之间嵌入的兼容性,如图8(b)所示。
在这里插入图片描述

Fig. 8. (a) The architecture of attentive pooling networks [64]. (b) The architecture of label-text matching model [65].
Kim等人[66]提出了一种语义句子匹配方法,使用紧密连接的循环和共同注意网络。与DenseNet[39]类似,该模型的每一层都使用了注意特征的串联信息以及前面所有递归层的隐藏特征。它能保持从最底层到最高层的原始和共同关注的特征信息。Yin等人[67]提出了另一个基于注意的CNN句子对匹配模型。他们研究了三种将句子之间的相互影响整合到CNN中的注意模式,以便每个句子的表征都考虑到其成对的句子。这些相互依赖的句子对表示比孤立的句子表示更有效,这在多个分类任务中得到了验证,包括答案选择、释义识别和文本蕴涵。Tan等人[68]在匹配聚合框架下使用了多种注意功能来匹配句子对。Yang等人[69]提出了一种基于注意力的神经匹配模型,用于对简短答案文本进行排序。他们采用价值共享加权方案代替位置共享加权方案来组合不同的匹配信号,并利用问题注意网络进行问题项重要性学习。该模型在TREC-QA数据集上取得了很好的效果。
还有其他有趣的注意力模型。Lin等人[70]利用自我注意来提取可解释的句子嵌入。Wang等人[71]提出了一种具有多尺度特征注意的密集连接的CNN来产生可变的n-gram特征。Yamada和Shindo[72]使用神经注意实体袋模型,使用知识库中的实体进行文本分类。Parikh等人[73]利用注意力将问题分解为可以单独解决的子问题。Chen等人[74]探索了广义池化方法来增强句子嵌入,并提出了一种基于向量的多头注意模型。Liu和Lane[75]提出了一种基于注意的RNN模型,用于联合意图检测和时隙填充。

2.6 Memory-Augmented Networks

当注意模型在编码过程中存储的隐藏向量可以看作是模型内部记忆的条目时,记忆增强网络将神经网络与一种形式的外部记忆相结合,模型可以读取和写入外部记忆。
Munkhdalai和Yu[76]提出了一种用于文本分类和QA的记忆增强神经网络,称为神经语义编码器(neural Semantic Encoder,NSE)。NSE配备有可变大小的编码存储器,该存储器随时间演化并且通过读取、合成和写入操作保持对输入序列的理解,如图9所示。
在这里插入图片描述

Fig. 9. The architecture of NSE [76].
Weston等人[77]设计了一个用于合成QA任务的内存网络,其中向模型提供一系列语句(内存条目)作为问题的支持事实。该模型学习根据问题和先前检索到的内存一次从内存中检索一个条目。Sukhbatar等人[78]扩展了这项工作,提出了端到端的记忆网络,在这种网络中,记忆条目通过注意机制以软方式检索,从而实现端到端的训练。他们表明,通过多轮(跳跃),该模型能够检索和推理几个支持事实来回答一个特定的问题。
Kumar等人[79]提出了一种动态记忆方法(DMN),它处理输入序列和问题,形成情景记忆,并生成相关答案。问题触发了一个迭代的注意过程,这个过程允许模型根据输入和先前迭代的结果来调整它的注意。这些结果,然后在一个分层递归序列模型推理,以产生答案。DMN经过端到端的训练,在QA和词性标注方面获得了最新的结果。Xiong等人[80]对DMN进行了详细的分析,并对其内存和输入模块进行了改进。

2.7 Transformers

RNNs的计算瓶颈之一是文本的顺序处理。尽管CNNs的顺序不如RNNs,但与RNNs类似,捕获句子中单词之间关系的计算成本也随着句子长度的增加而增加。变形金刚[2]克服了这一限制,通过运用自我注意来并行计算句子中的每个单词,或者记录一个“注意分数”来模拟每个单词对另一个单词的影响。由于这个特性,Transformers允许比CNNs和RNNs更多的并行化,这使得在GPU集群上高效地训练大量数据的非常大的模型成为可能。
自2018年以来,我们看到了一系列基于Transformers的大规模预训练语言模型(PLM)的兴起。与早期基于CNNs[81]或LSTMs[82]的语境化嵌入模型相比,基于Transformer的plm使用了更深层次的网络结构(例如48层Transformers[83]),并且在大量的文本语料库上进行了预训练,通过预测以上下文为条件的单词来学习上下文文本表示。这些plm使用特定于任务的标签进行了微调,并在许多下游NLP任务(包括文本分类)中创建了最新的技术。虽然预训练是无监督的,但微调是有监督的学习。
plm可分为两类:自回归plm和自编码plm。最早的自回归plm之一是OpenGPT[83,84],这是一种单向模型,它从左到右(或从右到左)逐字预测文本序列,每个单词的预测取决于先前的预测。图10显示了OpenGPT的体系结构。它由12层变压器块组成,每个Transformers块由一个屏蔽的多头注意模块组成,然后是一个层归一化和一个位置前馈层。OpenGPT可以通过添加特定于任务的线性分类器和使用特定于任务的标签进行微调来适应文本分类等下游任务。
在这里插入图片描述
Fig. 10. The architecture of OpenGPT-1 [83]
最广泛使用的是BERT[4]。与OpenGPT基于先前的预测预测单词不同,BERT使用掩蔽语言建模任务进行训练,该任务在文本序列中随机掩蔽一些标记,然后通过调节双向转换器获得的编码向量来独立地恢复掩蔽的标记。已经有许多关于改进BERT的工作。RoBERTa[85]比BERT更健壮,并且使用更多的训练数据进行训练。ALBERT[86]降低了记忆消耗,提高了BERT的训练速度。DivertBert[87]在预训练期间利用知识提取,将BERT的大小减少了40%,同时保留了99%的原始能力,使推理速度提高了60%。SpanBERT[88]扩展了BERT来更好地表示和预测文本跨度。BERT及其变体已经针对各种NLP任务进行了微调,包括QA[89]、文本分类[90]和NLI[91、92]。
有人试图结合自回归和自动编码PLM的优势。XLNet[5]集成了自回归模型的思想,如OpenGPT和BERT的双向上下文建模。XLNet在预训练期间使用了一个置换操作,允许上下文包含来自左和右的标记,使其成为一个通用的顺序感知自回归语言模型。这种排列是通过在变压器中使用一个特殊的注意遮罩来实现的。XLNet还引入了一个两流的自我注意模式,允许位置感知的单词预测。这是因为观察到单词的分布在很大程度上取决于单词的位置。例如,一个句子的开头与句子中的其他位置有很大的不同。如图11所示,为了预测排列3-2-4-1中位置1处的单词标记,通过包括所有先前单词(3,2,4)的位置嵌入和标记嵌入来形成内容流,然后通过包括要预测的单词(位置1处的单词)的内容流和位置嵌入来形成查询流,最后根据查询流中的信息进行预测。
在这里插入图片描述
Fig. 11. The architecture of XLNet [5]: a) Content stream attention, b) Query stream attention, c) Overview of the permutation language modeling training with two- stream attention.
如前所述,OpenGPT使用从左到右的转换器来学习自然语言生成的文本表示,而BERT使用双向转换器来理解自然语言。统一语言模型(UniLM)[93]旨在处理自然语言理解和生成任务。UniLM使用三种类型的语言建模任务进行预训练:单向、双向和序列到序列预测。如图12所示,通过采用共享变压器网络并利用特定的自我注意掩码来控制预测条件在什么上下文上,来实现统一建模。据报道,UniLM的第二个版本[94]在广泛的自然语言理解和生成任务上达到了最新的水平,显著优于以前的plm,包括OpenGPT-2、XLNet、BERT及其变体。
Raffel等人[95]提出了一个基于转换器的统一框架,可以将许多NLP问题转换为文本到文本格式。他们还进行了一项系统的研究,比较了培训前的目标、体系结构、未标记的数据集、微调方法以及数十项语言理解任务的其他因素。

2.8 Graph Neural Networks

尽管自然语言文本具有顺序性,但它们也包含内部的图形结构,如句法和语义分析树,它们定义了句子中单词之间的句法/语义关系。
为NLP开发的最早的基于图形的模型之一是TextRank[96]。作者提出将自然语言文本表示为图𝐺(𝑉,𝐸),其中𝑉表示一组节点,𝐸表示节点之间的一组边。根据手头的应用程序,节点可以表示各种类型的文本单元,例如单词、搭配、整个句子等。同样,可以使用边来表示任何节点之间的不同类型的关系,例如词汇或语义关系、上下文重叠等。
现代图神经网络(GNNs)是通过扩展对图数据的深度学习方法而发展起来的,例如TextRank使用的文本图。深层神经网络,如CNN、RNN和自动编码器,在过去的几年中被广泛应用于处理复杂的图形数据[97]。例如,将用于图像处理的CNNs的2D卷积推广为通过取节点的邻域信息的加权平均来执行图卷积。在各种类型的GNN中,卷积GNN,如图卷积网络(GCN)[98]及其变体,是最流行的GNN,因为它们有效且方便与其他神经网络组合,并且在许多应用中取得了最先进的成果。GCNs是图上CNNs的一个有效变体。GCNs将学习到的一阶谱滤波器层叠起来,然后用非线性激活函数学习图形表示。
GNNs在自然语言处理中的一个典型应用是文本分类。GNNs利用文档或单词之间的相互关系来推断文档标签[98–100]。接下来,我们将回顾一些为文本分类而开发的GCNs变体。
Peng等人[101]提出了一种基于图CNN的深度学习模型,首先将文本转换为文字图,然后使用图卷积运算对文字图进行卷积,如图13所示。他们通过实验表明,文本的词图表示具有捕捉非连续语义和远距离语义的优势,CNN模型具有学习不同层次语义的优势。
在[102]中,Peng等人提出了一种基于层次分类感知和注意图的文本分类模型。该模型的一个独特之处是使用了类标签之间的层次关系,在以前的方法中,这些关系被认为是独立的。具体来说,为了利用这种关系,作者开发了一种层次分类嵌入方法来学习它们的表示,并通过结合标签表示相似度定义了一种新的加权边际损失。
Yao等人[103]使用了类似的图CNN(GCNN)模型进行文本分类。他们基于单词共现和文档-单词关系为语料库构建了一个文本图,然后学习了语料库的文本图卷积网络(text-GCN),如图14所示。文本GCN用一个词和文档的热表示形式初始化,然后在已知文档类标签的监督下,联合学习词和文档的嵌入。
为大规模文本语料库构建GNNs是非常昂贵的。通过降低模型的复杂度或改变模型的训练策略来降低模型的建模成本。前者的一个例子是在[104]中提出的简单图卷积(SGC)模型,其中通过反复消除连续层之间的非线性并将得到的函数(权重矩阵)折叠成单个线性变换来简化深度卷积GNN。后者的一个例子是文本级GNN[105]。文本级GNN不是为整个文本语料库建立一个图,而是为文本语料库上滑动窗口定义的每个文本块生成一个图,以减少训练过程中的内存消耗。同样的想法推动了GraphSage[99]的发展,GraphSage是一种用于卷积GNNs的批量训练算法
在这里插入图片描述

Fig. 13. The architecture of GNN used by Peng et al. [101].
在这里插入图片描述

Fig. 14. The architecture of GCNN [103].

2.9 Siamese Neural Networks

Siamese Neural Networks(S2Nets)[106,107]及其DNN变体,即深度结构语义模型(DSSM)[108],是为文本匹配而设计的。这是许多自然语言处理应用程序的基本任务,例如QA中的查询文档排序和答案选择。这些任务可以看作是文本分类的特例。例如,在有问题的文档排序中,我们希望将文档分类为与给定查询相关或无关。
如图15所示,DSSM(或S2Net)由一对DNN、𝑓1和𝑓2组成,其将输入𝑥和𝑦映射到公共低维语义空间中的相应向量中。然后通过两个向量的余弦距离来度量𝑥和𝑦的相似性。S2Net假定𝑓1和𝑓2共享相同的体系结构甚至相同的参数,而在DSSMs中,𝑓1和𝑓2可以是不同的体系结构,具体取决于𝑥和𝑦。例如,为了计算图像-文本对的相似性,𝑓1可以是深度CNN,𝑓2可以是RNN或MLP。根据(𝑥,𝑦)的定义,这些模型可以应用于范围广泛的NLP任务。例如,(𝑥,𝑦)可以是用于查询文档排名的查询文档对[108,109],或者QA[110,111]中的问答对,等等。
在这里插入图片描述

Fig. 15. The architecture of a DSSM
模型参数𝜃通常使用成对秩损失进行优化。以文档排序为例。考虑一个查询𝑥和两个候选文档𝑦+和𝑦-,其中𝑦+与𝑥相关,而𝑦-。假设sim𝜃(𝑥,𝑦)是由𝜃参数化的语义空间中𝑥和𝑦的余弦相似性。训练目标是尽可能减少边缘损失:
在这里插入图片描述
(1)
由于文本具有顺序性,因此很自然地使用RNNs或LSTMs实现𝑓1和𝑓2来度量文本之间的语义相似性。图16显示了Mueller等人[112]提出的Siamese Neural Networks的架构,其中两个网络使用相同的LSTM模型。Neculoiu等人[113]提出了一个类似的模型,该模型使用字符级Bi LSTM表示𝑓1和𝑓2,并使用余弦函数计算相似度。除了RNN之外,BOW模型和CNN也被用于表示句子。例如,他等人[114]提出了一个S2Net,它使用CNN来模拟多角度的句子相似性。Renter等人[115]提出了一个连体CBOW模型,该模型通过平均句子的单词嵌入来形成句子向量表示,并将句子相似度计算为句子向量之间的余弦相似度。随着BERT成为新的最先进的句子嵌入模型,人们试图构建基于BERT的S2Net,如SBERT[116]和TwinBERT[117]。
在这里插入图片描述

Fig. 16. The architecture of the Siamese model proposed by Mueller et al. [112].

S2Net和DSSMs在QA问题上得到了广泛的应用。Das等人[110]提出了一个Siamese Neural Networks CNN问答系统(SCQA)来衡量一个问题和它的(候选)答案之间的语义相似性。为了降低计算复杂度,SCQA使用了问答对的字符级表示。对SCQA的参数进行训练,使问题与其相关答案之间的语义相似度最大化,如等式1所示,其中𝑥是一个问题,而𝑦是其候选答案。Tan等人[111]提出了一系列用于答案选择的Siamese Neural Networks。如图17所示,这些是使用卷积、递归和注意神经网络处理文本的混合模型。其他为QA开发的Siamese Neural Networks包括基于LSTM的非因子答案选择模型[118]、双曲线表示学习[119]和使用深度相似神经网络的问答[120]。
在这里插入图片描述

Fig. 17. The architectures of the Siamese models studied in [111].

2.10 Hybrid Models

许多混合模型已经被开发来结合LSTM和CNN架构来捕获句子和文档的局部和全局特征。Zhu等人[121]提出了卷积LSTM(C-LSTM)网络。如图18(a)所示,C-LSTM利用CNN来提取高级短语(n-gram)表示的序列,其被馈送到LSTM网络以获得句子表示。类似地,Zhang等人[122]提出了一种依赖敏感CNN(DSCNN)用于文档建模。如图18(b)所示,DSCNN是分层模型,其中LSTM学习被馈送到卷积层和最大池层的语句向量以生成文档表示。
在这里插入图片描述

Fig. 18. (a) The architecture of C-LSTM [121]. (b) The architecture of DSCNN for document modeling [122].
Chen等人[123]通过CNN-RNN模型进行多标签文本分类,CNN-RNN模型能够捕获全局和局部文本语义,因此能够建模高阶标签相关性,同时具有可处理的计算复杂性。Tang等人[124]使用CNN学习句子表征,使用门控RNN学习编码句子之间内在关系的文档表征。Xiao等人[125]将文档视为字符序列,而不是单词,并建议使用基于字符的卷积和循环层来进行文档编码。与词级模型相比,该模型在参数较少的情况下取得了相当的性能。递归CNN[126]应用了一种递归结构来捕捉学习单词表征的长期上下文依赖性。为了降低噪声,采用Max-pooling自动选择对文本分类任务至关重要的显著词。
Chen等人[127]提出了一种通过句子类型分类进行情绪分析的分而治之方法,其动机是观察到不同类型的句子以非常不同的方式表达情绪。作者首先应用Bi-LSTM模型将句子分为三种类型。然后将每组句子分别送入一维CNN进行情感分类。
在[128]中,Kowsari等人提出了一种用于文本分类的分层深度学习方法(HDLTex)。HDLTex采用了一系列混合深度学习模型体系结构,包括MLP、RNN和CNN,以便在文档层次结构的每个层次上提供专门的理解。
Liu[129]提出了一种随机答案网络(SAN),用于机器阅读理解中的多步推理。如图19所示,SAN结合了不同类型的神经网络,包括记忆网络、变换、Bi-LSTM、注意和CNN。BILSTM组件获取问题和段落的上下文表示。它的注意机制衍生出一种问题感知的语篇表征。然后,使用另一个LSTM来生成该通道的工作存储器。最后,一个基于选通递归单元(GRU)的应答模块输出预测。
在这里插入图片描述

Fig. 19. The architecture of the stochastic answer network [129].
一些研究集中于将highway networks与RNN和CNN相结合。在典型的多层神经网络中,信息是逐层流动的。随着深度的增加,基于梯度的DNN训练变得越来越困难。highway networks [130]的设计是为了简化非常深入的神经网络的训练。它们允许信息在信息高速公路上的几层之间畅通无阻地流动,类似于ResNet中的快捷连接[3]。Kim等人[131]利用CNN和LSTM的highway networks对字符进行语言建模。如图20所示,第一层执行字符嵌入的查找,然后应用卷积和最大池运算以获得给定给highway networks的单词的固定维表示。highway networks的输出作为多层LSTM的输入。最后,将仿射变换和softmax应用于LSTM的隐藏表示,以获得下一个单词的分布。其他基于highway networks的混合模型包括经常性公路网[132]和带有公路的RNN[133]。
在这里插入图片描述

Fig. 20. The architecture of the highway network with CNN and LSTM [131].

2.11 Beyond Supervised Learning

Unsupervised Learning using Autoencoders. 与单词嵌入类似,句子的分布式表示也可以在无监督的方式下学习。通过优化一些辅助目标,例如自动编码器的重建损失[134]。这种无监督学习的结果是句子编码器,它可以将具有相似语义和句法特性的句子映射到相似的固定大小的向量表示。第2.7节中描述的基于Transformer的PLM也是可以用作句子编码器的无监督模型。本节讨论基于自动编码器及其变体的无监督模型。
Kiros等人[135]提出了一种Skip-Thought模型,用于非监督学习通用的句子编码器。通过训练编译码器模型来重构编码句子的周围句子。Dai和Le[136]研究了序列自动编码器的使用,该编码器将输入序列读入向量,并再次预测输入,用于句子编码。他们发现在一个大的无监督语料库上预训练句子编码器比只预训练单词嵌入产生更好的准确率。Zhang等人[137]提出了一种平均最大注意自动编码器,它利用多头自注意机制重构输入序列。在编码中使用了mean-max策略,其中对隐藏向量的mean和max池操作都被应用于捕获输入的不同信息。
当自动编码器学习输入的压缩表示时,变分自动编码器(VAE)[138,139]学习表示数据的分布,并且可以被视为自动编码器的正则化版本[140]。由于VAE学习对数据建模,我们可以很容易地从分布中采样,以生成新的输入数据样本(例如,新句子)。Miao等人[141]将VAE框架扩展到文本,提出了用于文档建模的神经变分文档模型(NVDM)和用于QA的神经答案选择模型(NASM)。如图21(a)所示,NVDM使用MLP编码器将文档映射到连续语义表示。如图21(b)所示,NASM使用LSTM和潜在的随机注意机制来建模问答对的语义并预测它们的相关性。注意模型关注与问题语义密切相关的答案短语,并通过潜在分布建模,允许模型处理任务中固有的模糊性。Bowman等人[142]提出了一种基于RNN的VAE语言模型,如图21(c)所示。该模型结合了整个句子的分布式潜在表示,允许显式地建模句子的整体属性,如风格、主题和高级句法特征。
在这里插入图片描述

Fig. 21. (a) The neural variational document model for document modeling [141]. (b) The neural answer selection model for QA [141]. © The RNN-based variational autoencoder language model [142].
Adversarial Training. 对抗训练[143]是一种改进分类器泛化的正则化方法。它是通过提高模型对敌方例子的鲁棒性来实现的,敌方例子是通过对输入进行小的扰动而产生的。对抗性训练需要使用标签,并应用于监督学习。虚拟对抗训练[144]将对抗训练扩展到半监督学习。这是通过正则化一个模型来实现的,这样,给定一个例子,该模型产生的输出分布与该例子的对抗性扰动产生的输出分布相同。Miyato等人[145]将对抗式和虚拟对抗式训练扩展到监督和半监督文本分类任务,通过对RNN中嵌入的单词施加扰动,而不是原始输入本身。Sachel等人[146]研究了用于半监督文本分类的LSTM模型。他们发现,使用一个混合目标函数,将交叉熵、对抗性和虚拟对抗性损失结合起来,用于标记和未标记的数据,可以显著改善监督学习方法。Liu等人[147]将对抗训练扩展到文本分类的多任务学习框架[18],旨在减轻任务独立(共享)和任务依赖(私有)的潜在特征空间之间的相互干扰。
***Reinforcement Learning.***强化学习(Reinforcement learning,RL)[148]是一种训练agent根据策略执行离散动作的方法,该策略被训练为使奖励最大化。Shen等人[149]使用硬注意模型来选择输入序列中关键词标记的子集进行文本分类。硬注意模型可以看作是一个代理,它决定是否选择令牌。在遍历整个文本序列之后,它会收到一个分类损失,作为训练代理的奖励。Liu等人[150]提出了一种神经代理,它将文本分类建模为一个顺序决策过程。受人类文本阅读认知过程的启发,代理按顺序扫描一段文本,并在它希望的时间做出分类决策。分类结果和何时进行分类都是决策过程的一部分,由经过RL训练的策略控制。沈等[151]提出了一种机器阅读理解的多步推理网络(ReasoNet)。ReasoNets执行多个步骤来推理查询、文档和答案之间的关系。在推理过程中,ReasoNets没有使用固定数量的步骤,而是引入终止状态来放松对推理步骤的约束。通过使用RL,ReasoNets可以动态地决定是在消化中间结果后继续理解过程,还是在得出现有信息足以产生答案时终止阅读。Li等人[152]将RL、GANs和RNNs相结合,建立了一个新的模型,称为范畴句生成对抗网络(CS-GAN),它能够生成扩大原始数据集的范畴句,并在监督训练中提高其泛化能力。Zhang等人[153]提出了一种基于RL的文本分类结构化表示学习方法。他们提出了两个基于LSTM的模型。第一种方法只在输入文本中选择与任务相关的重要单词。另一个发现句子的短语结构。使用这两个模型的结构发现被描述为由策略网络引导的顺序决策过程,策略网络在每个步骤决定要使用哪个模型,如图22所示。利用策略梯度优化策略网络。
在这里插入图片描述

Fig. 22. The RL-based method of learning structured representations for text classification [153]. The policy network samples an action at each state. The structured representation model updates the state and outputs the final sentence representation to the classification network at the end of the episode. The text classification loss is used as a (negative) reward to train the
policy.

3. 挑战与机遇

在基于深度学习模型的帮助下,文本分类在过去的几年中取得了很大的进展。在过去的十年中,一些新的想法被提出(如neural embedding, attention mechanism, self attention, Transformer, BERT, and XLNet),这些想法导致了快速的发展。尽管取得了所有进展,但我们面前仍有若干挑战需要解决。本节介绍了其中的一些挑战,并讨论了我们认为有助于推进该领域的研究方向。

New Datasets for More Challenging Tasks.

尽管近年来已经收集了大量用于常见文本分类任务的大规模数据集,但是对于更具挑战性的任务仍然需要新的数据集,例如具有多步骤推理的QA和用于多语言文档的文本分类。为这些任务建立一个大规模的标记数据集可以帮助加速这些领域的进展。

Modeling Commonsense Knowledge.

将常识知识融入深度学习模型有可能显著提高模型性能,这与人类利用常识知识执行不同任务的方式基本相同。例如,装备有常识知识库的QA系统可以回答关于真实世界的问题。常识也有助于解决信息不完整的问题。人工智能系统利用人们对日常事物或概念的广泛信仰,可以基于对未知事物的“默认”假设进行推理,就像人们所做的那样。虽然这一思想已经被用于情感分类,但还需要更多的研究来探索如何在神经模型中有效地建模和使用常识知识。

Interpretable Deep Learning Models.

虽然深度学习模型在具有挑战性的基准上取得了很好的表现,但这些模型中的大多数都是不可解释的,仍然存在许多悬而未决的问题。例如,为什么一个模型在一个数据集上优于另一个模型,但在其他数据集上却表现不佳?深度学习模式究竟学到了什么?什么是最小的神经网络结构,可以在给定的数据集上达到一定的精度?尽管注意和自我注意机制为回答这些问题提供了一些见解,但对这些模型的潜在行为和动力学的详细研究仍然缺乏。更好地理解这些模型的理论方面有助于开发针对各种文本分析场景的更好的模型。

Memory Efficient Models.

大多数现代神经语言模型需要大量的记忆来进行训练和推理。但是为了满足移动设备的计算和存储限制,这些模型必须进行简化和压缩。这可以通过使用知识提炼构建学生模型,或者使用模型压缩技术来实现。开发一种任务无关的模型简化方法是一个活跃的研究课题[203]。

Few-Shot and Zero-Shot Learning.

大多数深度学习模型都是有监督的模型,需要大量的域标签。实际上,为每个新域收集这样的标签是很昂贵的。将一个预先训练好的语言模型(PLM)如BERT和OpenGPT微调到一个特定的任务需要比从头开始训练模型少得多的域标签,从而为基于PLM开发新的Few-Shot and Zero-Shot Learning提供了机会。

REFERENCES

[1] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances in neural
information processing systems, 2012, pp. 1097–1105.
[2] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all you need,” in
Advances in neural information processing systems, 2017, pp. 5998–6008.
[3] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer
vision and pattern recognition, 2016, pp. 770–778.
[4] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “Bert: Pre-training of deep bidirectional transformers for language understanding,”
arXiv preprint arXiv:1810.04805, 2018.
[5] Z. Yang, Z. Dai, Y. Yang, J. Carbonell, R. R. Salakhutdinov, and Q. V. Le, “Xlnet: Generalized autoregressive pretraining for language
understanding,” in Advances in neural information processing systems, 2019, pp. 5754–5764.
[6] P. Rajpurkar, J. Zhang, K. Lopyrev, and P. Liang, “Squad: 100,000+ questions for machine comprehension of text,” arXiv preprint
arXiv:1606.05250, 2016.
[7] M. Marelli, L. Bentivogli, M. Baroni, R. Bernardi, S. Menini, and R. Zamparelli, “Semeval-2014 task 1: Evaluation of compositional
distributional semantic models on full sentences through semantic relatedness and textual entailment,” in Proceedings of the 8th
international workshop on semantic evaluation (SemEval 2014), 2014, pp. 1–8.
[8] T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Efficient estimation of word representations in vector space,” arXiv preprint arXiv:1301.3781,
2013.
[9] J. Pennington, R. Socher, and C. Manning, “Glove: Global vectors for word representation,” in Proceedings of the 2014 conference on
empirical methods in natural language processing (EMNLP), 2014, pp. 1532–1543.
[10] M. Iyyer, V. Manjunatha, J. Boyd-Graber, and H. Daumé III, “Deep unordered composition rivals syntactic methods for text classification,”
in Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on
Natural Language Processing (Volume 1: Long Papers), 2015, pp. 1681–1691.
[11] A. Joulin, E. Grave, P. Bojanowski, M. Douze, H. Jégou, and T. Mikolov, “Fasttext. zip: Compressing text classification models,” arXiv
preprint arXiv:1612.03651, 2016.
[12] S. Wang and C. D. Manning, “Baselines and bigrams: Simple, good sentiment and topic classification,” in Proceedings of the 50th annual
meeting of the association for computational linguistics: Short papers-volume 2. Association for Computational Linguistics, 2012, pp.
90–94.
[13] Q. Le and T. Mikolov, “Distributed representations of sentences and documents,” in International conference on machine learning, 2014,
pp. 1188–1196.
[14] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, “Distributed representations of words and phrases and their compositionality,”
in Advances in neural information processing systems, 2013, pp. 3111–3119.
[15] K. S. Tai, R. Socher, and C. D. Manning, “Improved semantic representations from tree-structured long short-term memory networks,”
arXiv preprint arXiv:1503.00075, 2015.
[16] X. Zhu, P. Sobihani, and H. Guo, “Long short-term memory over recursive structures,” in International Conference on Machine Learning,
2015, pp. 1604–1612.
[17] J. Cheng, L. Dong, and M. Lapata, “Long short-term memory-networks for machine reading,” arXiv preprint arXiv:1601.06733, 2016.
[18] P. Liu, X. Qiu, X. Chen, S. Wu, and X.-J. Huang, “Multi-timescale long short-term memory neural network for modelling sentences and
documents,” in Proceedings of the 2015 conference on empirical methods in natural language processing, 2015, pp. 2326–2335.
[19] A. B. Dieng, C. Wang, J. Gao, and J. Paisley, “Topicrnn: A recurrent neural network with long-range semantic dependency,” arXiv
preprint arXiv:1611.01702, 2016.
[20] P. Liu, X. Qiu, and X. Huang, “Recurrent neural network for text classification with multi-task learning,” arXiv preprint arXiv:1605.05101,
2016.
[21] R. Johnson and T. Zhang, “Supervised and semi-supervised text categorization using lstm for region embeddings,” arXiv preprint
arXiv:1602.02373, 2016.
[22] P. Zhou, Z. Qi, S. Zheng, J. Xu, H. Bao, and B. Xu, “Text classification improved by integrating bidirectional lstm with two-dimensional
max pooling,” arXiv preprint arXiv:1611.06639, 2016.
[23] Z. Wang, W. Hamza, and R. Florian, “Bilateral multi-perspective matching for natural language sentences,” arXiv preprint arXiv:1702.03814,
2017.
, Vol. 1, No. 1, Article . Publication date: April 2020.
Deep Learning Based Text Classification: A Comprehensive Review • 31
[24] S. Wan, Y. Lan, J. Guo, J. Xu, L. Pang, and X. Cheng, “A deep architecture for semantic matching with multiple positional sentence
representations,” in Thirtieth AAAI Conference on Artificial Intelligence, 2016.
[25] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, “Gradient-based learning applied to document recognition,” Proceedings of the IEEE,
vol. 86, no. 11, pp. 2278–2324, 1998.
[26] N. Kalchbrenner, E. Grefenstette, and P. Blunsom, “A convolutional neural network for modelling sentences,” in 52nd Annual Meeting of
the Association for Computational Linguistics, ACL 2014 - Proceedings of the Conference, 2014.
[27] Y. Kim, “Convolutional neural networks for sentence classification,” in EMNLP 2014 - 2014 Conference on Empirical Methods in Natural
Language Processing, Proceedings of the Conference, 2014.
[28] J. Liu, W. C. Chang, Y. Wu, and Y. Yang, “Deep learning for extreme multi-label text classification,” in SIGIR 2017 - Proceedings of the
40th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2017.
[29] R. Johnson and T. Zhang, “Effective use of word order for text categorization with convolutional neural networks,” in NAACL HLT
2015 - 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies,
Proceedings of the Conference, 2015.
[30] ——, “Deep pyramid convolutional neural networks for text categorization,” in Proceedings of the 55th Annual Meeting of the Association
for Computational Linguistics (Volume 1: Long Papers), 2017, pp. 562–570.
[31] X. Zhang, J. Zhao, and Y. LeCun, “Character-level convolutional networks for text classification,” in Advances in neural information
processing systems, 2015, pp. 649–657.
[32] Y. Kim, Y. Jernite, D. Sontag, and A. M. Rush, “Character-aware neural language models,” in Thirtieth AAAI Conference on Artificial
Intelligence, 2016.
[33] J. D. Prusa and T. M. Khoshgoftaar, “Designing a better data representation for deep neural networks and text classification,” in
Proceedings - 2016 IEEE 17th International Conference on Information Reuse and Integration, IRI 2016, 2016.
[34] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in 3rd International Conference
on Learning Representations, ICLR 2015 - Conference Track Proceedings, 2015.
[35] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE Computer Society
Conference on Computer Vision and Pattern Recognition, 2016.
[36] A. Conneau, H. Schwenk, L. Barrault, and Y. Lecun, “Very deep convolutional networks for text classification,” arXiv preprint
arXiv:1606.01781, 2016.
[37] A. B. Duque, L. L. J. Santos, D. Macêdo, and C. Zanchettin, “Squeezed Very Deep Convolutional Neural Networks for Text Classification,”
in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2019.
[38] H. T. Le, C. Cerisara, and A. Denis, “Do convolutional networks need to be deep for text classification?” in Workshops at the Thirty-Second
AAAI Conference on Artificial Intelligence, 2018.
[39] G. Huang, Z. Liu, L. Van Der Maaten, and K. Q. Weinberger, “Densely connected convolutional networks,” in Proceedings - 30th IEEE
Conference on Computer Vision and Pattern Recognition, CVPR 2017, 2017.
[40] B. Guo, C. Zhang, J. Liu, and X. Ma, “Improving text classification with weighted word embeddings via a multi-channel TextCNN
model,” Neurocomputing, 2019.
[41] Y. Zhang and B. Wallace, “A sensitivity analysis of (and practitioners’ guide to) convolutional neural networks for sentence classification,”
arXiv preprint arXiv:1510.03820, 2015.
[42] L. Mou, R. Men, G. Li, Y. Xu, L. Zhang, R. Yan, and Z. Jin, “Natural language inference by tree-based convolution and heuristic matching,”
arXiv preprint arXiv:1512.08422, 2015.
[43] L. Pang, Y. Lan, J. Guo, J. Xu, S. Wan, and X. Cheng, “Text matching as image recognition,” in 30th AAAI Conference on Artificial
Intelligence, AAAI 2016, 2016.
[44] J. Wang, Z. Wang, D. Zhang, and J. Yan, “Combining knowledge with deep convolutional neural networks for short text classification,”
in IJCAI International Joint Conference on Artificial Intelligence, 2017.
[45] S. Karimi, X. Dai, H. Hassanzadeh, and A. Nguyen, “Automatic Diagnosis Coding of Radiology Reports: A Comparison of Deep Learning
and Conventional Classification Methods,” 2017.
[46] S. Peng, R. You, H. Wang, C. Zhai, H. Mamitsuka, and S. Zhu, “DeepMeSH: Deep semantic representation for improving large-scale
MeSH indexing,” Bioinformatics, 2016.
[47] A. Rios and R. Kavuluru, “Convolutional neural networks for biomedical text classification: Application in indexing biomedical articles,”
in BCB 2015 - 6th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics, 2015.
[48] M. Hughes, I. Li, S. Kotoulas, and T. Suzumura, “Medical Text Classification Using Convolutional Neural Networks,” Studies in Health
Technology and Informatics, 2017.
[49] G. E. Hinton, A. Krizhevsky, and S. D. Wang, “Transforming auto-encoders,” in International conference on artificial neural networks.
Springer, 2011, pp. 44–51.
[50] S. Sabour, N. Frosst, and G. E. Hinton, “Dynamic routing between capsules,” in Advances in neural information processing systems, 2017,
pp. 3856–3866.
, Vol. 1, No. 1, Article . Publication date: April 2020.
32 • S. Minaee, N. Kalchbrenner, E. Cambria, N. Nikzad, M. Chenaghlu, and J. Gao
[51] S. Sabour, N. Frosst, and G. Hinton, “Matrix capsules with em routing,” in 6th international conference on learning representations, ICLR,
2018, pp. 1–15.
[52] W. Zhao, J. Ye, M. Yang, Z. Lei, S. Zhang, and Z. Zhao, “Investigating capsule networks with dynamic routing for text classification,”
arXiv preprint arXiv:1804.00538, 2018.
[53] M. Yang, W. Zhao, L. Chen, Q. Qu, Z. Zhao, and Y. Shen, “Investigating the transferring capability of capsule networks for text
classification,” Neural Networks, vol. 118, pp. 247–261, 2019.
[54] W. Zhao, H. Peng, S. Eger, E. Cambria, and M. Yang, “Towards scalable and reliable capsule networks for challenging NLP applications,”
in ACL, 2019, pp. 1549–1559.
[55] J. Kim, S. Jang, E. Park, and S. Choi, “Text classification using capsules,” Neurocomputing, vol. 376, pp. 214–221, 2020.
[56] R. Aly, S. Remus, and C. Biemann, “Hierarchical multi-label classification of text with capsule networks,” in Proceedings of the 57th
Annual Meeting of the Association for Computational Linguistics: Student Research Workshop, 2019, pp. 323–330.
[57] H. Ren and H. Lu, “Compositional coding capsule network with k-means routing for text classification,” arXiv preprint arXiv:1810.09177,
2018.
[58] D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,” arXiv preprint arXiv:1409.0473,
2014.
[59] M.-T. Luong, H. Pham, and C. D. Manning, “Effective approaches to attention-based neural machine translation,” arXiv preprint
arXiv:1508.04025, 2015.
[60] Z. Yang, D. Yang, C. Dyer, X. He, A. Smola, and E. Hovy, “Hierarchical attention networks for document classification,” in Proceedings
of the 2016 conference of the North American chapter of the association for computational linguistics: human language technologies, 2016,
pp. 1480–1489.
[61] X. Zhou, X. Wan, and J. Xiao, “Attention-based lstm network for cross-lingual sentiment classification,” in Proceedings of the 2016
conference on empirical methods in natural language processing, 2016, pp. 247–256.
[62] T. Shen, T. Zhou, G. Long, J. Jiang, S. Pan, and C. Zhang, “Disan: Directional self-attention network for rnn/cnn-free language
understanding,” in Thirty-Second AAAI Conference on Artificial Intelligence, 2018.
[63] Y. Liu, C. Sun, L. Lin, and X. Wang, “Learning natural language inference using bidirectional lstm model and inner-attention,” arXiv
preprint arXiv:1605.09090, 2016.
[64] C. d. Santos, M. Tan, B. Xiang, and B. Zhou, “Attentive pooling networks,” arXiv preprint arXiv:1602.03609, 2016.
[65] G. Wang, C. Li, W. Wang, Y. Zhang, D. Shen, X. Zhang, R. Henao, and L. Carin, “Joint embedding of words and labels for text
classification,” arXiv preprint arXiv:1805.04174, 2018.
[66] S. Kim, I. Kang, and N. Kwak, “Semantic sentence matching with densely-connected recurrent and co-attentive information,” in
Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, 2019, pp. 6586–6593.
[67] W. Yin, H. Schütze, B. Xiang, and B. Zhou, “Abcnn: Attention-based convolutional neural network for modeling sentence pairs,”
Transactions of the Association for Computational Linguistics, vol. 4, pp. 259–272, 2016.
[68] C. Tan, F. Wei, W. Wang, W. Lv, and M. Zhou, “Multiway attention networks for modeling sentence pairs,” in IJCAI, 2018, pp. 4411–4417.
[69] L. Yang, Q. Ai, J. Guo, and W. B. Croft, “anmm: Ranking short answer texts with attention-based neural matching model,” in Proceedings
of the 25th ACM international on conference on information and knowledge management, 2016, pp. 287–296.
[70] Z. Lin, M. Feng, C. N. d. Santos, M. Yu, B. Xiang, B. Zhou, and Y. Bengio, “A structured self-attentive sentence embedding,” arXiv
preprint arXiv:1703.03130, 2017.
[71] S. Wang, M. Huang, and Z. Deng, “Densely connected cnn with multi-scale feature attention for text classification.” in IJCAI, 2018, pp.
4468–4474.
[72] I. Yamada and H. Shindo, “Neural attentive bag-of-entities model for text classification,” arXiv preprint arXiv:1909.01259, 2019.
[73] A. P. Parikh, O. Tackstrom, D. Das, and J. Uszkoreit, “A decomposable attention model for natural language inference,” arXiv preprint
arXiv:1606.01933, 2016.
[74] Q. Chen, Z.-H. Ling, and X. Zhu, “Enhancing sentence embedding with generalized pooling,” arXiv preprint arXiv:1806.09828, 2018.
[75] B. Liu and I. Lane, “Attention-based recurrent neural network models for joint intent detection and slot filling,” arXiv preprint
arXiv:1609.01454, 2016.
[76] T. Munkhdalai and H. Yu, “Neural semantic encoders,” in Proceedings of the conference. Association for Computational Linguistics.
Meeting, vol. 1. NIH Public Access, 2017, p. 397.
[77] J. Weston, S. Chopra, and A. Bordes, “Memory networks,” in 3rd International Conference on Learning Representations, ICLR 2015 -
Conference Track Proceedings, 2015.
[78] S. Sukhbaatar, J. Weston, R. Fergus et al., “End-to-end memory networks,” in Advances in neural information processing systems, 2015,
pp. 2440–2448.
[79] A. Kumar, O. Irsoy, P. Ondruska, M. Iyyer, J. Bradbury, I. Gulrajani, V. Zhong, R. Paulus, and R. Socher, “Ask me anything: Dynamic
memory networks for natural language processing,” in 33rd International Conference on Machine Learning, ICML 2016, 2016.
, Vol. 1, No. 1, Article . Publication date: April 2020.
Deep Learning Based Text Classification: A Comprehensive Review • 33
[80] C. Xiong, S. Merity, and R. Socher, “Dynamic memory networks for visual and textual question answering,” in 33rd International
Conference on Machine Learning, ICML 2016, 2016.
[81] R. Collobert, J. Weston, L. Bottou, M. Karlen, K. Kavukcuoglu, and P. Kuksa, “Natural language processing (almost) from scratch,”
Journal of machine learning research, vol. 12, no. Aug, pp. 2493–2537, 2011.
[82] M. E. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, and L. Zettlemoyer, “Deep contextualized word representations,”
arXiv preprint arXiv:1802.05365, 2018.
[83] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, and I. Sutskever, “Language models are unsupervised multitask learners,” OpenAI Blog,
vol. 1, no. 8, p. 9, 2019.
[84] A. Radford, K. Narasimhan, T. Salimans, and I. Sutskever, “Improving language understanding by generative pre-training,” URL
https://s3-us-west-2. amazonaws. com/openai-assets/researchcovers/languageunsupervised/language understanding paper. pdf, 2018.
[85] Y. Liu, M. Ott, N. Goyal, J. Du, M. Joshi, D. Chen, O. Levy, M. Lewis, L. Zettlemoyer, and V. Stoyanov, “Roberta: A robustly optimized
bert pretraining approach,” arXiv preprint arXiv:1907.11692, 2019.
[86] Z. Lan, M. Chen, S. Goodman, K. Gimpel, P. Sharma, and R. Soricut, “Albert: A lite bert for self-supervised learning of language
representations,” arXiv preprint arXiv:1909.11942, 2019.
[87] V. Sanh, L. Debut, J. Chaumond, and T. Wolf, “Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter,” arXiv preprint
arXiv:1910.01108, 2019.
[88] M. Joshi, D. Chen, Y. Liu, D. S. Weld, L. Zettlemoyer, and O. Levy, “Spanbert: Improving pre-training by representing and predicting
spans,” arXiv preprint arXiv:1907.10529, 2019.
[89] S. Garg, T. Vu, and A. Moschitti, “Tanda: Transfer and adapt pre-trained transformer models for answer sentence selection,” arXiv
preprint arXiv:1911.04118, 2019.
[90] C.Sun,X.Qiu,Y.Xu,andX.Huang,“Howtofine-tunebertfortextclassification?”in China National Conference on Chinese Computational
Linguistics. Springer, 2019, pp. 194–206.
[91] Z. Zhang, Y. Wu, H. Zhao, Z. Li, S. Zhang, X. Zhou, and X. Zhou, “Semantics-aware bert for language understanding,” arXiv preprint
arXiv:1909.02209, 2019.
[92] X. Liu, P. He, W. Chen, and J. Gao, “Multi-task deep neural networks for natural language understanding,” arXiv preprint arXiv:1901.11504,
2019.
[93] L. Dong, N. Yang, W. Wang, F. Wei, X. Liu, Y. Wang, J. Gao, M. Zhou, and H.-W. Hon, “Unified language model pre-training for natural
language understanding and generation,” in Advances in Neural Information Processing Systems, 2019, pp. 13042–13054.
[94] H. Bao, L. Dong, F. Wei, W. Wang, N. Yang, X. Liu, Y. Wang, S. Piao, J. Gao, M. Zhou et al., “Unilmv2: Pseudo-masked language models
for unified language model pre-training,” arXiv preprint arXiv:2002.12804, 2020.
[95] C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang, M. Matena, Y. Zhou, W. Li, and P. J. Liu, “Exploring the limits of transfer learning
with a unified text-to-text transformer,” arXiv preprint arXiv:1910.10683, 2019.
[96] R. Mihalcea and P. Tarau, “Textrank: Bringing order into text,” in Proceedings of the 2004 conference on empirical methods in natural
language processing, 2004, pp. 404–411.
[97] Z. Wu, S. Pan, F. Chen, G. Long, C. Zhang, and P. S. Yu, “A comprehensive survey on graph neural networks,” arXiv preprint
arXiv:1901.00596, 2019.
[98] T. N. Kipf and M. Welling, “Semi-supervised classification with graph convolutional networks,” arXiv preprint arXiv:1609.02907, 2016.
[99] W. Hamilton, Z. Ying, and J. Leskovec, “Inductive representation learning on large graphs,” in Advances in neural information processing
systems, 2017, pp. 1024–1034.
[100] P. Veličković, G. Cucurull, A. Casanova, A. Romero, P. Lio, and Y. Bengio, “Graph attention networks,” arXiv preprint arXiv:1710.10903,
2017.
[101] H. Peng, J. Li, Y. He, Y. Liu, M. Bao, L. Wang, Y. Song, and Q. Yang, “Large-scale hierarchical text classification with recursively
regularized deep graph-cnn,” in Proceedings of the 2018 World Wide Web Conference. International World Wide Web Conferences
Steering Committee, 2018, pp. 1063–1072.
[102] H. Peng, J. Li, Q. Gong, S. Wang, L. He, B. Li, L. Wang, and P. S. Yu, “Hierarchical taxonomy-aware and attentional graph capsule rcnns
for large-scale multi-label text classification,” arXiv preprint arXiv:1906.04898, 2019.
[103] L. Yao, C. Mao, and Y. Luo, “Graph convolutional networks for text classification,” in Proceedings of the AAAI Conference on Artificial
Intelligence, vol. 33, 2019, pp. 7370–7377.
[104] F. Wu, T. Zhang, A. H. d. Souza Jr, C. Fifty, T. Yu, and K. Q. Weinberger, “Simplifying graph convolutional networks,” arXiv preprint
arXiv:1902.07153, 2019.
[105] L. Huang, D. Ma, S. Li, X. Zhang, and H. WANG, “Text level graph neural network for text classification,” arXiv preprint arXiv:1910.02356,
2019.
[106] J. BROMLEY, J. W. BENTZ, L. BOTTOU, I. GUYON, Y. LECUN, C. MOORE, E. SÄCKINGER, and R. SHAH, “Signature verification using
a Siamese time delay neural network,” International Journal of Pattern Recognition and Artificial Intelligence, 1993.
, Vol. 1, No. 1, Article . Publication date: April 2020.
34 • S. Minaee, N. Kalchbrenner, E. Cambria, N. Nikzad, M. Chenaghlu, and J. Gao
[107] W. tau Yih, K. Toutanova, J. C. Platt, and C. Meek, “Learning discriminative projections for text similarity measures,” in CoNLL 2011 -
Fifteenth Conference on Computational Natural Language Learning, Proceedings of the Conference, 2011.
[108] Y. Shen, X. He, J. Gao, L. Deng, and G. Mesnil, “A latent semantic model with convolutional-pooling structure for information retrieval,”
in ACM International Conference on Conference on Information and Knowledge Management. ACM, 2014, pp. 101–110.
[109] A. Severyn and A. Moschittiy, “Learning to rank short text pairs with convolutional deep neural networks,” in SIGIR 2015 - Proceedings
of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2015.
[110] A. Das, H. Yenala, M. Chinnakotla, and M. Shrivastava, “Together we stand: Siamese networks for similar question retrieval,” in 54th
Annual Meeting of the Association for Computational Linguistics, ACL 2016 - Long Papers, 2016.
[111] M. Tan, C. D. Santos, B. Xiang, and B. Zhou, “Improved representation learning for question answer matching,” in 54th Annual Meeting
of the Association for Computational Linguistics, ACL 2016 - Long Papers, 2016.
[112] J. Mueller and A. Thyagarajan, “Siamese recurrent architectures for learning sentence similarity,” in 30th AAAI Conference on Artificial
Intelligence, AAAI 2016, 2016.
[113] P. Neculoiu, M. Versteegh, and M. Rotaru, “Learning Text Similarity with Siamese Recurrent Networks,” 2016.
[114] H. He, K. Gimpel, and J. Lin, “Multi-perspective sentence similarity modeling with convolutional neural networks,” in Conference
Proceedings - EMNLP 2015: Conference on Empirical Methods in Natural Language Processing, 2015.
[115] T. Renter, A. Borisov, and M. De Rijke, “Siamese CBOW: Optimizing word embeddings for sentence representations,” in 54th Annual
Meeting of the Association for Computational Linguistics, ACL 2016 - Long Papers, 2016.
[116] N. Reimers and I. Gurevych, “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks,” 2019.
[117] W. Lu, J. Jiao, and R. Zhang, “Twinbert: Distilling knowledge to twin-structured bert models for efficient retrieval,” arXiv preprint
arXiv:2002.06275, 2020.
[118] M. Tan, C. d. Santos, B. Xiang, and B. Zhou, “Lstm-based deep learning models for non-factoid answer selection,” arXiv preprint
arXiv:1511.04108, 2015.
[119] Y. Tay, L. A. Tuan, and S. C. Hui, “Hyperbolic representation learning for fast and efficient neural question answering,” in Proceedings of
the Eleventh ACM International Conference on Web Search and Data Mining, 2018, pp. 583–591.
[120] S. Minaee and Z. Liu, “Automatic question-answering using a deep similarity neural network,” in 2017 IEEE Global Conference on Signal
and Information Processing (GlobalSIP). IEEE, 2017, pp. 923–927.
[121] C. Zhou, C. Sun, Z. Liu, and F. Lau, “A c-lstm neural network for text classification,” arXiv preprint arXiv:1511.08630, 2015.
[122] R. Zhang, H. Lee, and D. Radev, “Dependency sensitive convolutional neural networks for modeling sentences and documents,” in 2016
Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL HLT
2016 - Proceedings of the Conference, 2016.
[123] G. Chen, D. Ye, E. Cambria, J. Chen, and Z. Xing, “Ensemble application of convolutional and recurrent neural networks for multi-label
text categorization,” in IJCNN, 2017, pp. 2377–2383.
[124] D. Tang, B. Qin, and T. Liu, “Document modeling with gated recurrent neural network for sentiment classification,” in Proceedings of
the 2015 conference on empirical methods in natural language processing, 2015, pp. 1422–1432.
[125] Y. Xiao and K. Cho, “Efficient character-level document classification by combining convolution and recurrent layers,” arXiv preprint
arXiv:1602.00367, 2016.
[126] S. Lai, L. Xu, K. Liu, and J. Zhao, “Recurrent convolutional neural networks for text classification,” in Twenty-ninth AAAI conference on
artificial intelligence, 2015.
[127] T. Chen, R. Xu, Y. He, and X. Wang, “Improving sentiment analysis via sentence type classification using bilstm-crf and cnn,”
Expert Systems with Applications, vol. 72, pp. 221 – 230, 2017. [Online]. Available: http://www.sciencedirect.com/science/article/pii/
S0957417416305929
[128] K. Kowsari, D. E. Brown, M. Heidarysafa, K. J. Meimandi, M. S. Gerber, and L. E. Barnes, “Hdltex: Hierarchical deep learning for text
classification,” in 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA). IEEE, 2017, pp. 364–371.
[129] X. Liu, Y. Shen, K. Duh, and J. Gao, “Stochastic answer networks for machine reading comprehension,” arXiv preprint arXiv:1712.03556,
2017.
[130] R. K. Srivastava, K. Greff, and J. Schmidhuber, “Training very deep networks,” in Advances in Neural Information Processing Systems,
2015.
[131] Y. Kim, Y. Jernite, D. Sontag, and A. M. Rush, “Character-Aware neural language models,” in 30th AAAI Conference on Artificial
Intelligence, AAAI 2016, 2016.
[132] J. G. Zilly, R. K. Srivastava, J. Koutnik, and J. Schmidhuber, “Recurrent highway networks,” in 34th International Conference on Machine
Learning, ICML 2017, 2017.
[133] Y. Wen, W. Zhang, R. Luo, and J. Wang, “Learning text representation using recurrent convolutional neural network with highway
layers,” arXiv preprint arXiv:1606.06905, 2016.
[134] D. E. Rumelhart, G. E. Hinton, and R. J. Williams, “Learning internal representations by error propagation,” California Univ San Diego
La Jolla Inst for Cognitive Science, Tech. Rep., 1985.
, Vol. 1, No. 1, Article . Publication date: April 2020.
Deep Learning Based Text Classification: A Comprehensive Review • 35
[135] R. Kiros, Y. Zhu, R. R. Salakhutdinov, R. Zemel, R. Urtasun, A. Torralba, and S. Fidler, “Skip-thought vectors,” in Advances in neural
information processing systems, 2015, pp. 3294–3302.
[136] A. M. Dai and Q. V. Le, “Semi-supervised sequence learning,” in Advances in Neural Information Processing Systems, 2015.
[137] M. Zhang, Y. Wu, W. Li, and W. Li, “Learning Universal Sentence Representations with Mean-Max Attention Autoencoder,” 2019.
[138] D. P. Kingma and M. Welling, “Auto-encoding variational bayes,” in 2nd International Conference on Learning Representations, ICLR 2014

  • Conference Track Proceedings, 2014.
    [139] D. J. Rezende, S. Mohamed, and D. Wierstra, “Stochastic backpropagation and approximate inference in deep generative models,” ICML,

[140] I. Goodfellow, Y. Bengio, and A. Courville, Deep learning. MIT press, 2016.
[141] Y. Miao, L. Yu, and P. Blunsom, “Neural variational inference for text processing,” in International conference on machine learning, 2016.
[142] S. R. Bowman, L. Vilnis, O. Vinyals, A. M. Dai, R. Jozefowicz, and S. Bengio, “Generating sentences from a continuous space,” in CoNLL
2016 - 20th SIGNLL Conference on Computational Natural Language Learning, Proceedings, 2016.
[143] I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and harnessing adversarial examples,” arXiv preprint arXiv:1412.6572, 2014.
[144] T. Miyato, S.-i. Maeda, M. Koyama, K. Nakae, and S. Ishii, “Distributional smoothing with virtual adversarial training,” in ICLR, 2016.
[145] T. Miyato, A. M. Dai, and I. Goodfellow, “Adversarial training methods for semi-supervised text classification,” arXiv preprint
arXiv:1605.07725, 2016.
[146] D. S. Sachan, M. Zaheer, and R. Salakhutdinov, “Revisiting lstm networks for semi-supervised text classification via mixed objective
function,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, 2019, pp. 6940–6948.
[147] P. Liu, X. Qiu, and X. Huang, “Adversarial multi-task learning for text classification,” arXiv preprint arXiv:1704.05742, 2017.
[148] R. S. Sutton and A. G. Barto, Reinforcement learning: An introduction. MIT press, 2018.
[149] T. Shen, T. Zhou, G. Long, J. Jiang, S. Wang, and C. Zhang, “Reinforced self-attention network: a hybrid of hard and soft attention for
sequence modeling,” arXiv preprint arXiv:1801.10296, 2018.
[150] X. Liu, L. Mou, H. Cui, Z. Lu, and S. Song, “Finding decision jumps in text classification,” Neurocomputing, vol. 371, pp. 177–187, 2020.
[151] Y. Shen, P.-S. Huang, J. Gao, and W. Chen, “Reasonet: Learning to stop reading in machine comprehension,” in Proceedings of the 23rd
ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2017, pp. 1047–1055.
[152] Y. Li, Q. Pan, S. Wang, T. Yang, and E. Cambria, “A generative model for category text generation,” Information Sciences, vol. 450, pp.
301–315, 2018.
[153] T. Zhang, M. Huang, and L. Zhao, “Learning structured representation for text classification via reinforcement learning,” in Thirty-Second
AAAI Conference on Artificial Intelligence, 2018.

  • 6
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值