文章目录
-
- 综述:基于深度学习的文本分类
-
-
- 《Deep Learning Based Text Classification: A Comprehensive Review》论文总结(一)
- 总结
- 1.Introduction
- 2.用于文本分类的深度学习模型
-
综述:基于深度学习的文本分类
《Deep Learning Based Text Classification: A Comprehensive Review》论文总结(一)
Minaee S, Kalchbrenner N, Cambria E, et al. Deep learning based text classification: A comprehensive review[J]. arXiv preprint arXiv:2004.03705, 2020.
原文链接:https://arxiv.org/pdf/2004.03705.pdf
参考博主「一只羊呀」:Deep Learning Based Text Classification: A Comprehensive Review(部分翻译总结)的总结
总结
在这项工作中,作者
- 详细回顾了近年来开发的150多个基于深度学习的文本分类模型,并讨论了它们的技术贡献、相似性和优势。
- 总结了超过40个广泛用于文本分类的流行的数据集。
- 总结了性能评价指标,一组深度学习模型的性能进行了定量分析。
- 讨论剩下的挑战和未来的方向
1.Introduction
自动文本分类的方法可以分为三类:Rule-based methods基于规则的方法、 Machine learning (data-driven) based methods数据驱动的机器学习方法、Hybrid methods混合方法。
基于规则的方法使用一组预定义的规则将文本分类成不同的类别。例如,带有单词“football”、“basketball”或“baseball”的任何文档都被指定为“sport”标签。
这些方法需要对领域有深入的了解,并且系统很难维护。基于机器学习的方法学习使用预先标记的例子作为训练数据,可以学习文本片段和它们的标签之间的内在关联,根据过去对数据的观察进行分类。因此基于机器学习的方法可以检测数据中的隐藏模式,具有更强的可扩展性,可以应用于各种任务。这与基于规则的方法相反,基于规则的方法对于不同的任务需要不同的规则集。
混合方法,顾名思义,是将基于规则的方法和机器学习方法结合起来进行预测。
大多数经典的基于机器学习的模型遵循流行的两步程序,第一步从文档(或任何其他文本单元)中提取一些手工制作的特征,第二步将这些特征提供给分类器进行预测。一些流行的手工制作特征方法包括词袋模型bag of words (BoW)及其扩展。流行的分类算法包括朴素贝叶斯、支持向量机(SVM)、隐马尔可夫模型(HMM)、梯度增强树和随机森林。两步方法有几个局限性。例如,依赖手工制作的特性需要冗长的特性工程和分析才能获得良好的性能; 由于设计特征对领域知识的强烈依赖,使得该方法难以推广到新任务; 因为特征(或特征模板)是预先定义的, 这些模型不能充分利用大量的训练数据。
2012年,基于深度学习的模型AlexNet在ImageNet竞赛中大胜,自那以后,深度学习模型被广泛应用于计算机视觉和自然语言处理的任务中。这些模型试图学习特征表示,并以端到端的方式进行分类(或回归)。它们不仅能够发现数据中隐藏的模式,而且从一个应用程序到另一个应用程序的可转移性要大得多。这些模型正在成为近年来各种文本分类任务的主流框架。
文本分类任务
不同的文本分类任务有:情感分析sentiment analysis、新闻分类news categorization、主题分类topic analysis、问答question answering(QA)和自然语言推理Nature language inference(NLI)。
QA系统有两种类型:抽取式和生成式。抽取式给定一个问题和一组候选答案,我们需要将每个候选答案分类为正确或不正确。生成QA学习从头开始生成答案(例如使用seq2seq模型),这种本文不讨论。
NLI也被称为识别文本涵recognizing textual entailment(RTE),它预测一个文本的意义是否可以从另一个文本中推断出来。系统需要为每对文本单元分配一个标签,例如包含,矛盾和中性。 释义Paraphrasing是NLI的一种广义形式,也称为文本对比较。 任务是测量一个句子对的语义相似度,以确定一个句子是否是另一个句子的释义。
2.用于文本分类的深度学习模型
本节主要介绍
- 基于前馈网络的模型feed-forward networks,该模型将文本视为一袋单词(2.1)。
- 基于RNN的模型,该模型将文本视为单词序列,旨在捕获单词相关性和文本结构(2.2)。
- 基于CNN的模型,经过训练可以识别文本中的模式(例如关键短语)进行分类(2.3)
- 胶囊网络Capsule networks,用于解决CNN的合并操作所遭受的信息丢失问题,最近已应用于文本分类(2.4)。
- 注意机制,可以有效地识别文本中的相关单词,并已成为开发深度学习模型的有用工具(2.5)。
- 内存增强网络Memory-augmented networks,它将神经网络与外部存储器形式结合在一起,模型可以从中读取和写入数据(2.6)。
- transformers,比RNN允许更多的并行化,从而可以使用GPU群集有效地(预)训练非常大的语言模型(2.7)。
- 图神经网络,旨在捕获自然语言的内部图结构,例如句法和语义解析树(2.8)。
- Siamese Neural Networks,用于文本匹配,这是文本分类的一种特殊情况(2.9)。
- 混合模型,结合注意力,RNN,CNN等以捕获句子和文档的局部和全局特征(2.10)。
- 有监督学习之外的建模技术,包括使用自动编码器和对抗训练的无监督学习,以及强化学习(2.11)。
2.1 Feed-Forward Neural Networks
前馈神经网络是一种最简单的神经网络,各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层.各层间没有反馈。
将文本视为一袋单词。对于每个单词,使用诸如word2vec或Glove之类的嵌入模型学习向量表示,将向量的总和或平均值作为文本的表示,将其通过一个或多个前馈层,然后使用分类器(例如逻辑回归,朴素贝叶斯或SVM)对最终层的表示进行分类。
这些模型的一个示例是深度平均网络(DAN),其体系结构如图1所示。模型旨在显式地学习文本的组成。DAN在具有较高语法差异的数据集上的表现优于语法模型。 Joulin等提出了一种简单而有效的文本分类器,称为fastText。像DAN一样,fastText将文本视为一袋单词。与DAN不同,fastText使用一袋n-gram作为附加功能来捕获本地单词顺序信息。事实证明,这在实践中非常有效,同时可以获得与显式使用单词顺序的方法相当的结果。

2.2 RNN-Based Models
基于rnn的模型将文本视为单词序列,旨在捕获单词相关性和文本结构,用于文本分类。然而,传统的RNN模型并不能很好地工作,而且常常不如前馈神经网络。在rnn的许多变体中,LSTM是最流行的体系结构,其设计目的是更好地捕捉长期依赖关系。LSTM通过引入一个记忆单元来记忆任意时间间隔内的值,以及三个门(输入门、输出门、遗忘门)来调节进出细胞的信息流,解决了普通rnn所遇到的梯度消失或爆炸问题。通过捕获更丰富的信息,如自然语言的树结构、文本中的大跨度词关系、文档主题等,改进rnn和LSTM模型用于文本分类。
Tai等人开发了一个Tree-LSTM模型,将LSTM推广到树形结构的网络类型,以学习丰富的语义表示。作者认为Tree-LSTM比链结构LSTM在NLP任务中是一个更好的模型,因为自然语言具有将单词自然地组合成短语的语法属性。他们验证了Tree-LSTM在两个任务上的有效性:情感分类和两个句子的语义关联预测。

为了对机器学习的大跨度单词关系进行建模,Cheng等人用一个存储网络代替单个存储单元来增强LSTM体系结构。 该模型在语言建模,情感分析和NLI上取得了可喜的结果。
多时间尺度LSTM (MT-LSTM)神经网络也被设计用来模拟长文本,如句子和文档,通过捕捉不同时间尺度的有价值的信息。MT-LSTM将标准LSTM模型的隐藏状态划分为几个组。每组被激活和更新在不同的时间周期。因此,MT-LSTM可以对非常长的文档进行建模。据报道ÿ