论文阅读：Text Classfication Algorithms：A Survey（二）

最新推荐文章于 2024-04-30 16:37:00 发布

Rock_y

最新推荐文章于 2024-04-30 16:37:00 发布

阅读量979

点赞数 1

文章标签：自然语言处理深度学习神经网络

本文链接：https://blog.csdn.net/rock_y/article/details/108443502

版权

在这里插入图片描述
论文阅读：Text Classification Algorithms: A Survey

这是一篇关于文本分类的综述性文章，发表于2019年，由于文章篇幅较长，所以分开来写，这是第二部分，本次介绍第四、五章，包对现存分类技术的比较和分类任务的评估指标。

原文链接：https://www.mdpi.com/2078-2489/10/4/150

第一三部分链接，
论文阅读：Text Classfication Algorithms：A Survey（一）
论文阅读：Text Classfication Algorithms：A Survey（三）

下面开始~

Text Classfication Algorithms：A Survey（二）

4. Existing Classification Techniques
5. Evaluation

4. Existing Classification Techniques

在本节中，我们概述了现有的文本和文档分类算法。首先，我们描述了用于文本分类的Rocchio算法。然后，我们讨论集成学习算法中的两种流行技术:Boosting和bagging。一些方法，如逻辑回归，朴素的贝叶斯（NaïveBayes）和k近邻是更传统的，但在科学界仍然很常用。支持向量机（SVM），尤其是内核SVM，也广泛用作分类技术。基于树的分类算法（例如决策树和随机森林）可快速，准确地进行文档分类。我们还将描述基于神经网络的算法，例如深度神经网络（DNN），CNN，RNN，深度信念网络（DBN），分层注意力网络（HAN）和组合技术。

4.1. Rocchio Classification

Rocchio算法由J.J. Rocchio [104]在1971年提出了一种使用相关性反馈来查询全文数据库的方法。从那时起，许多研究人员研究并开发了这种用于文本和文档分类的技术[105,106]。该分类算法为每个信息性单词使用TF-IDF权重，而不是布尔特征。使用训练的文档集，Rocchio算法为每个类构建原型向量。该原型是训练文件中属于某个类别的向量的平均向量。然后，将每个测试文档分配给该类，并且在测试文档和每个原型向量之间具有最大相似度[107]。平均向量计算类c的质心（其成员的质心）：
在这里插入图片描述

其中Dc是D中属于类c的一组文档，而vd是文档d的加权矢量表示。文件d的预测标签是文件与质心之间的欧几里得距离最小的标签：
在这里插入图片描述

质心可以标准化为单位长度，如下所示：
在这里插入图片描述

因此，可以按以下方式获得测试文件的标签：
在这里插入图片描述

Limitation of Rocchio Algorithm
用于文本分类的Rocchio算法包含许多限制，例如用户只能使用此模型检索一些相关文档[108]。此外，该算法的结果也通过考虑语义来说明

4.2. Boosting and Bagging

投票分类技术，例如bagging and boosting，已经成功地开发用于文档和文本数据集分类[110]。虽然boosting功能会根据先前分类器的性能自适应地更改训练集的分布，但bagging不会关注先前的分类器

4.2.1. Boosting

4.2.2. Bagging

4.2.3. Limitation of Boosting and Bagging

Boosting和bagging方法也有许多局限性和缺点，例如计算复杂性和可解释性的丧失[117]，这意味着这些模型无法发现特征的重要性。

4.3. Logistic Regression

最早的分类方法之一是逻辑回归（LR）。 LR是由统计学家David Cox在1958年提出并开发的[118]。 LR是决策边界为θTx= 0的线性分类器。LR预测概率而不是类别

4.3.1. Basic Framework

LR的目标是从给定x的变量Y为0或1的概率中进行训练。让我们有X∈Rn×d的文本数据。如果我们有二进制分类问题，则应使用伯努利混合模型函数[121]，如下所示：

4.3.2. Combining Instance-Based Learning and LR

4.3.3. Multinomial Logistic Regression

4.3.4. Limitation of Logistic Regression

逻辑回归分类器可很好地预测分类结果。但是，这种预测要求每个数据点都是独立的[124]，它试图基于一组独立变量来预测结果

4.4. Naïve Bayes Classifier

自1950年代以来，朴素贝叶斯文本分类已广泛用于文档分类任务[126,127]。朴素的贝叶斯分类器方法理论上基于贝叶斯定理，该定理由托马斯·贝叶斯（Thomas Bayes）在1701–1761 [128,129]之间提出。最近的研究在信息检索中广泛解决了该技术[130]。此技术是一种生成模型，是最传统的文本分类方法。我们从NBC的最基本版本开始，该版本是使用TF（单词袋）开发的，TF是一种特征提取技术，可对文档中的单词数进行计数。

4.4.1. High-Level Description of Naïve Bayes Classifier

4.4.2. Multinomial Naïve Bayes Classifier

4.4.3. Naïve Bayes Classifier for Unbalanced Classes

4.4.4. Limitation of Naïve Bayes Algorithm

朴素贝叶斯算法也有一些局限性。 NBC对数据分布的形状做出了强有力的假设[134,135]。 NBC还受到数据稀缺性的限制，对于数据稀缺性，特征空间中的任何可能值都必须由常驻人员来估计

4.5. K-Nearest Neighbor

k最近邻算法（KNN）是用于分类的非参数技术。在过去的几十年中，该方法用于许多研究领域的文本分类应用

4.5.1. Basic Concept of KNN

4.5.2. Weight Adjusted K-Nearest Neighbor Classification

4.5.3. Limitation of K-Nearest Neighbor

KNN是一种易于实现的分类方法，可适应任何类型的特征空间。该模型自然也可以处理多类案件[140,141]。但是**，KNN受到数据存储约束的限制，无法解决大型搜索问题以找到最近的邻居。**此外，KNN的性能取决于找到有意义的距离函数，因此使该技术成为非常依赖数据的算法

4.6. Support Vector Machine (SVM)

4.6.1. Binary-Class SVM

4.6.2. Multi-Class SVM

4.6.3. String Kernel

4.6.4. Stacking Support Vector Machine (SVM)

4.6.5. Multiple Instance Learning (MIL)

4.6.6. Limitation of Support Vector Machine (SVM)

自1990年代问世以来，SVM一直是最高效的机器学习算法之一[159]。但是，用于**文本分类的SVM算法由于维数众多而导致结果缺乏透明性而受到限制。**因此，它不能将公司得分显示为基于财务比率或任何其他函数形式的参数函数[159]。另一个限制是可变的财务比率比率

4.7. Decision Tree

文本和数据挖掘的一种较早的分类算法是决策树[161]。决策树分类器（DTC）已成功用于许多不同的分类领域[162]。该技术的结构是数据空间的层次分解[7,161]。决策树作为分类任务由D. Morgan [163]提出，由J.R. Quinlan [164]开发。主要思想是基于分类数据点的属性创建一棵树，但是决策树的主要挑战是哪个属性或特征可以在父级中，哪个应该在子级中。为了解决这个问题，DeMántaras[165]引入了统计模型，用于树中的特征选择。对于包含p个正数和n个负数的训练集：
Limitation of Decision Tree Algorithm
决策树是用于学习和预测的非常快速的算法。但是它也对数据中的小扰动极为敏感[166]，并且很容易过拟合[167]。可以通过验证方法和修剪来消除这些影响，但这是灰色区域[166]。该模型还存在样本外预测的问题

4.8. Random Forest

随机森林或随机决策森林技术是一种用于文本分类的整体学习方法。 T. Kam Ho [169]在1995年引入了这种使用t树作为并行的方法。如图14所示，RF的主要思想是生成随机决策树。 L. Breiman [170]于1999年进一步开发了此技术，他发现RF作为收敛度量（mg（X，Y））的收敛性如下：

4.8.1. Voting

4.8.2. Limitation of Random Forests

与其他技术（例如深度学习）相比，随机森林（即决策树的集合）训练文本数据集的速度非常快，但一旦训练就很难创建预测[172]。因此，为了获得更快的结构，必须减少森林中的树木数量，因为森林中更多的树木会增加预测步骤中的时间复杂度。

4.9. Conditional Random Field (CRF)

CRF是无向的图形模型，如图15所示。CRF本质上是一种结合分类和图形建模优点的方法，这些优点结合了对多维数据进行紧凑建模的能力以及利用高维特征空间进行预测的能力[ 173]（由于具有较高的特征空间，该模型对于文本数据非常强大）。 CRF指出了给定观察序列X即P（Y | X）的标记序列Y的条件概率。 CRF可以通过对标记序列的条件概率而不是联合概率P（X，Y）建模而不违反独立性假设，从而将复杂特征合并到观察序列中[174,175]。使用Clique（即完全连接的子图）电势来计算P（X | Y）。关于图中每个集团的势函数，可变配置的概率对应于一系列非负势函数的乘积。
每个潜在函数计算出的值等于特定配置中相应集团中变量的概率[174]。那是：
在这里插入图片描述

其中Z是归一化项。条件概率P（X | Y）可以表示为：
在这里插入图片描述

其中w是与f计算的特征向量关联的权重向量。
在这里插入图片描述

Limitation of Conditional Random Field (CRF)
关于CRF，CRF的最明显缺点是训练步骤[176]的高计算复杂性，尤其是由于文本空间较大而导致的文本数据集。此外，此算法不会对看不见的单词（即训练数据样本中不存在的单词）执行效果

4.10. Deep Learning

深度学习模型已在许多领域（包括各种NLP应用程序）中取得了最新的成果。用于文本和文档分类的深度学习包括并行的三种深度学习基础架构。我们将在下面详细描述每个模型。

4.10.1. Deep Neural Networks

深度神经网络（DNN）旨在通过多层连接来学习，每个单层仅接收来自上一层的连接，而仅提供与隐藏部分中的下一层的连接[2]。图16描述了标准DNN的结构。输入包括输入特征空间（如第2节所述）与DNN的第一个隐藏层的连接。可以通过TF-IDF，单词嵌入或其他某种特征提取方法来构造输入层。对于多层分类，输出层等于分类数，对于二进制分类，输出层仅等于一层。在多类DNN中，将生成每个学习模型（每层中的节点数和层数是完全随机分配的）。
DNN是一个识别训练模型，使用标准的反向传播算法，使用sigmoid（方程式（129）），relu[178]（方程式（130））作为激活函数。多类分类的输出层应该是一个softmax函数（如等式（131）所示）。
在这里插入图片描述

给出了一组例子对（x，y），x∈x，y∈y，目的是利用隐层来学习这些输入空间和目标空间之间的关系。在文本分类应用程序中，输入是通过对原始文本数据进行矢量化生成的字符串。
在这里插入图片描述

4.10.2. Recurrent Neural Network (RNN)

研究人员用于文本挖掘和分类的另一种神经网络结构是递归神经网络（RNN）[179180]。**RNN为序列的前一个数据点分配更多权重。因此，该技术是一种用于文本、字符串和顺序数据分类的强大方法。RNN以一种非常复杂的方法考虑以前节点的信息，这种方法允许对数据集的结构进行更好的语义分析。RNN主要使用lstm或gru进行文本分类，如图17所示，其中包含输入层（嵌入字）、隐藏层以及最后的输出层。**该方法可表述为：
在这里插入图片描述

式中，xt是时间t的状态，ut是指步骤t的输入。更具体地说，我们可以使用权重来建立方程（132），参数化为：
在这里插入图片描述

式中，wrec指的是循环矩阵权重，win指的是输入权重，b指的是偏差，σ指的是一个元函数。
图17说明了一个扩展的RNN体系结构。尽管有上述优点，但当梯度下降算法的误差通过网络反向传播时，RNN容易受到梯度消失和梯度爆炸的问题。
在这里插入图片描述

Long Short-Term Memory (LSTM)
LSTM是由S.Hochreiter和J.Schmidhuber[182]提出的，此后被许多研究科学家[183]所增强。
LSTM是一种特殊的RNN类型，与基本RNN相比，它通过更有效地保持长期依赖关系来解决这些问题。LSTM在克服消失梯度问题方面特别有用[184]。尽管lstm有一个类似于rnn的链状结构，但是lstm使用多个门来小心地调节允许进入每个节点状态的信息量。图18显示了LSTM模型的基本单元。LSTM单元的逐步说明如下：
在这里插入图片描述

**式（134）表示输入门，式（135）表示假存储器单元值，式（136）定义忘记门激活，式（137）计算新的存储器单元值，式（138）和式（139）定义最终输出门值。**在上述描述中，每个b表示一个偏压向量，每个w表示一个权重矩阵，xt表示在时间t时对存储单元的输入。此外，i、c、f、o索引分别表示输入、存储单元、忘记和输出门。图18显示了这些门的结构的图形表示。
当后面的单词比前面的单词更具影响力时，RNN可能会产生偏差。引入了卷积神经网络（CNN）模型（在第4.10.3节中讨论），以通过部署最大池层来确定文本数据中的区分性短语来克服这种偏见[6]。

Gated Recurrent Unit (GRU)

GRU是J. Chung等人为RNN建立的门控机制。 [185]和K. Cho等人。 [101]。 GRU是LSTM体系结构的简化变体。但是，GRU与LSTM不同，因为它包含两个门并且GRU不拥有内部存储器（即，图18中的Ct-1）。此外，不应用第二非线性（即，图18中的tanh）。 GRU单元的分步说明如下：
在这里插入图片描述

其中zt代表t的更新门向量，xt代表输入向量，W，U和b代表参数矩阵向量。激活函数（σg）为sigmiod或ReLU，可表示如下：
在这里插入图片描述

其中rt代表t的复位门矢量，zt是t的更新门矢量。
在这里插入图片描述

其中ht是t的输出向量，而σh表示双曲正切函数。

在这里插入图片描述

4.10.3. Convolutional Neural Networks (CNN)

卷积神经网络（CNN）是一种深度学习架构，通常用于分层文档分类[6,186]。尽管CNN最初是为图像处理而构建的，但也已有效地用于文本分类[27,187]。在用于图像处理的基本CNN中，图像张量与一组大小为d×d的内核进行卷积。这些卷积层称为特征图，可以堆叠以在输入上提供多个过滤器。为了减少计算复杂度，CNN使用池来减少网络中从一层到下一层的输出大小。在保留重要功能的同时，使用了不同的池化技术来减少输出[188]。
最常见的池化方法是最大池化，即在池化窗口中选择最大元素。为了将合并的特色地图的合并输出馈送到下一层，这些地图被展平为一列。 CNN中的最后一层通常是完全连接的。
通常，在卷积神经网络的反向传播步骤中，权重和特征检测器过滤器均被调整。使用CNN进行文本分类时，潜在的问题是“通道”的数量Σ（特征空间的大小）。虽然图像分类应用程序通常只有很少的通道（例如，只有3个RGB通道），但对于文本分类应用程序[Σ]可能会非常大（例如50 K），因此会导致非常高的尺寸。图19说明了用于文本分类的CNN体系结构，该体系结构包含单词嵌入作为输入层1D卷积层，1D池层，完全连接的层以及最后的输出层。
在这里插入图片描述

4.10.4. Deep Belief Network (DBN) （深度置信网络（DBN））

深度信念网络（DBN）是由受限的玻尔兹曼机器（RBM）叠加而成的深度学习结构[1]。 RBM是一种生成型人工神经网络，可以学习样本的概率分布。对比散度（CD）[190]是一种用于RBM的训练技术[191,192]。
在这里插入图片描述

其中ai是可见单位，并且双向引用矩阵表示法中的隐藏单位。该表达式可以简化为：
在这里插入图片描述

给定隐藏单元的配置h定义如下：
在这里插入图片描述

4.10.5. Hierarchical Attention Networks (HAN)

文本和文档分类的成功的深层体系结构之一的体系结构注意网络（HAN）。此技术由Z. Yang等人介绍。 [193]和S.P。 Hongsuck等。 [194]。 HAN的结构侧重于文档级别的分类，其中文档包含L个句子，每个句子包含Ti词，其中以tR [1，T]表示的第i个句子中的词。 HAN体系结构如图20所示，其中较低级别包含单词编码和单词注意，而较高级别包含句子编码和句子注意。
在这里插入图片描述

4.10.6. Combination Techniques（组合技术）

许多研究人员将标准深度学习体系结构合并或连接起来，以便开发出具有更强大和准确的体系结构用于分类任务的新颖技术。在本小节中，我们将介绍最近流行的深度学习架构和结构。

Random Multimodel Deep Learning (RMDL)（随机多模型深度学习（RMDL））

K. Kowsari等人介绍了随机多模型深度学习（RMDL）。 [4,5]是一种用于分类的新型深度学习技术。 RMDL可以用于任何类型的数据集进行分类。图21显示了此技术的概述，该图说明了使用多DNN，深度CNN和深度RNN的体系结构。所有这些深度学习多模型的层数和节点数都是随机生成的（例如，由3个CNN，3个RNN和3个DNN构成的RMDL中的9个随机模型，由于随机创建，所有这些都是唯一的）。
在这里插入图片描述

其中n是随机模型的数量，yij是模型j中数据点i的模型的输出预测（方程式（148）用于二进制分类，k∈{0或1}）。输出空间使用多数表决来计算ˆ yi的最终值。因此，ˆ yi给出如下：
在这里插入图片描述

其中n是随机模型的编号，yij显示模型j和yi的Di∈{xi，yi}的数据点（例如文档）的标签的预测，定义如下：
在这里插入图片描述

上图表示用于分类的随机多模型深度学习（RDML）体系结构。 RMDL包括3个随机模型：深度神经网络（DNN）分类器（左），深度CNN分类器（中）和深度递归神经网络（RNN）分类器（右）。每个单位可以是LSTM或GRU）。

**训练完所有RDL模型（RMDL）之后，使用对这些模型输出的多数表决来计算最终预测。**将多模型用于不同的优化器的主要思想是，如果一个优化器不能很好地满足特定数据集的需求，则具有n个随机模型的RMDL模型（其中一些模型可能使用不同的优化器）可以忽略k个模型，当且仅当n> k时效率不高。使用多种优化技术（例如SGD，Adam，RMSProp，Adagrad，Adamax）可以使RMDL模型更适合于任何类型的数据集。 虽然在本研究中我们仅使用2个优化器（Adam和RMSProp）来评估模型，但RMDL模型可以使用任何类型的优化器。在这一部分中，我们描述了深度学习架构中使用的常见优化技术。

Stochastic Gradient Descent (SGD) Optimizer:（随机梯度下降（SGD）优化器：）

等式（151）中示出了随机梯度下降（SGD）[195]的基本等式。 SGD使用重新缩放的梯度上的动量（如公式（152）所示）来更新参数。
在这里插入图片描述

RMSprop:

T. Tieleman和G. Hinton [196]引入了RMSprop作为一种新颖的优化程序，该方法将权重的学习率除以该权重的最近梯度幅度的运行平均值。 RMSprop的动量法公式如下：
在这里插入图片描述

RMSProp不进行偏差校正，这在处理稀疏梯度时会导致严重问题。

Adam Optimizer

Adam是另一个随机梯度优化器，它仅使用梯度的前两个矩（v和m，如公式（155）-（158）所示）并计算它们的平均值。它可以克服RMSProp中不稳定的目标函数，同时克服了RMSProp的稀疏梯度问题[197]。
在这里插入图片描述

其中mt是第一个矩，而vt表示第二个矩，两者都是估计的
在这里插入图片描述

Adagrad:

Adagrad在[198]中提出了一种新的次梯度方法系列，该方法动态吸收数据的几何知识以执行更多基于梯度的信息学习。 AdaGrad是SGD的扩展。在迭代k中，梯度定义为：

Adadelta:

由M.D. Zeiler [199]提出的AdaDelta使用gt的指数衰减平均值作为梯度的第二矩。此方法是Adagrad的更新版本，仅依赖第一订单信息。 Adadelta的更新规则是：

Hierarchical Deep Learning for Text (HDLTex)（文本分层深度学习（HDLTex））

文本层次深度学习（HDLTex）体系结构的主要贡献是文档的层次分类[2]。传统的多类别分类技术可以很好地用于有限数量的类别，但是性能会随着类别数量的增加而下降，就像在分层组织的文档中一样。在这种分层的深度学习模型中，通过创建专门针对其文档层次结构级别的深度学习方法的体系结构解决了此问题（例如，参见图22）。每个深度学习模型的HDLTex架构的结构如下：
DNN：8个隐藏层，每个隐藏层中有1024个单元。
RNN：此实现中使用GRU和LSTM，其中100个单元带有两个隐藏层的GRU。
CNN：过滤器大小为{3，4，5，6，7}，最大池为5，层大小为{128，128，128}，最大池为{5，5，35}，CNN包含8个隐藏的层。
使用以下参数构建所有模型：批处理大小= 128，学习参数= 0.001，β1= 0.9，β2= 0.999，e = 1e08，衰减= 0.0，辍学= 0.5（DNN）和dropout学= 0.25（CNN和RNN））。
HDLTex使用以下成本函数进行深度学习模型评估：
在这里插入图片描述

其中$是级别数，k表示每个级别的类数，Ψ表示层次模型的子级中的类数。
在这里插入图片描述

HDLTex：用于文本分类的分层深度学习。 DNN方法用于文本分类。上面的图描述了模型的父级，下面的图描述了子级模型（Ψi）作为父级的输入文档。

Other Techniques

在本节中，我们将讨论结合了深度学习架构的其他文本分类技术。递归卷积神经网络（RCNN）用于文本分类[6,200]。 RCNN可以使用递归结构捕获上下文信息，并使用CNN构造文本表示[6]。该架构是RNN和CNN的组合，利用了模型中两种技术的优势。
C-LSTM是C. Zhou等人引入的另一种文本和文档分类技术。 [201]。 C-LSTM将CNN与LSTM结合在一起，以便使用卷积层学习短语级特征。该体系结构将更高级别表示的序列提供给LSTM，以学习长期依赖关系。
4.10.7. Limitation of Deep Learning
深度学习（DL）尤其是DNN的模型可解释性一直是用例的限制因素，这些用例需要解释建模中涉及的功能，许多医疗保健问题就是这种情况。这个问题是由于科学家更喜欢将线性模型，贝叶斯模型，SVM，决策树等传统技术用于他们的工作。神经网络中的权重用于衡量每个神经元之间的每个连接找到重要特征空间的强度。如图23所示，模型越精确，可解释性越低，这意味着难以理解诸如深度学习之类的复杂算法。
深度学习（DL）是人工智能（AI）中最强大的技术之一，许多研究人员和科学家都致力于深度学习架构，以提高该工具的鲁棒性和计算能力。但是，深度学习架构在应用于分类任务时也具有一些缺点和局限性。该模型的主要问题之一是DL无法促进对学习的全面理论理解[202]。著名的DL方法的缺点是其“黑匣子”性质[203,204]。即，不容易理解DL方法提出卷积输出的方法。 DL的另一个局限性是它通常比传统的机器学习算法需要更多的数据，这意味着该技术无法应用于小数据集上的分类任务[205,206]。此外，DL分类算法所需的大量数据进一步加剧了训练步骤中的计算复杂性
在这里插入图片描述

传统和深度学习技术之间的模型可解释性比较。

4.11. Semi-Supervised Learning for Text Classification

许多研究人员已经为带标签和未带标签的文档开发了许多有效的分类器。半监督学习是一种监督学习问题，它使用未标记的数据来训练模型。通常，当数据集的一小部分包含标记的数据点而大量数据集不包含标签时，研究人员和科学家更喜欢使用半监督技术[208]。用于分类任务的大多数半监督学习算法使用聚类技术（通常用于无监督学习[209]），如下所示：最初，由于DT已标记，聚类技术应用于DT且K = K（类数）所有K类的样本[208]。如果分区Pihas带有标签样本，则该群集上的所有数据点都属于该标签。
聚类技术的研究目标是确定我们是否在一个聚类上标记了一个以上的类，以及如果我们在一个聚类中没有标记的数据点会发生什么[210]。在这一部分中，我们简要描述了半监督文本和文档分类的最流行技术。 O. Chapelle和A. Zien [211]通过低密度分离进行半监督分类，该方法将图距离计算与转导支持向量机（TSVM）训练相结合。 K.Nigam等。 [212]开发了一种使用期望最大化（EM）和生成模型的文本分类技术，用于文本分类领域中带有标签和未标签数据的半监督学习。 L.Shi等。 [213]介绍了一种通过翻译功能跨语言传输分类知识的方法。此技术使用的EM算法自然会考虑与单词翻译相关的歧义。 J.Su等。 [213]引入了“半监督频率估计（SFE）”，这是一种用于大规模文本分类的MNBC方法。 S.周等。 [214]发明了一种新颖的深度学习方法，该方法将模糊DBN用于半监督情感分类。该方法基于学习的体系结构对评论的每个类别采用模糊隶属度函数。

5. Evaluation

绩效评估通常评估分类任务绩效的特定方面，因此并不总是提供相同的信息。在本节中，我们将讨论评估指标和性能指标，并重点介绍可比较分类器性能的方法。由于不同评估指标的基础机制可能有所不同，因此了解这些指标的确切含义以及它们试图传达的哪种信息对可比性至关重要。这些指标的一些示例包括召回率，精度，准确性，F度量，微观平均和宏观平均。这些度量基于“混淆矩阵”（如图24所示），其中包括真阳性（TP），假阳性（FP），假阴性（FN）和真阴性（TN）[216]。这四个要素的重要性可能会因分类应用程序而异。正确的预测在所有预测中所占的比例称为准确性（公式（166））。正确预测的已知阳性分数称为灵敏度，即真实阳性率或召回率（公式（167））。正确预测的阴性比率称为特异性（方程式（168））。正确预测的阳性与所有阳性的比例称为精确度，即阳性预测值（公式（169））。
在这里插入图片描述

5.1. Macro-Averaging and Micro-Averaging

当使用多个两类分类器来处理集合时，需要使用一个汇总度量。宏平均给出了各个类的简单平均值，而微平均则组合了跨类的每个文档的决策，然后在合并的列联表中输出有效的度量[217]。
因此，微观平均得分为每个文档分配了相等的权重，因此它被视为每个文档的平均值。另一方面，宏观平均得分在不考虑频率的情况下为每个类别分配了相等的权重，因此，它是每个类别的平均值。
5.2. FβScore
Fβ是用于分类器评估的最受欢迎的聚合评估指标之一[216]。参数β用于平衡查全率和查准率，定义如下：
在这里插入图片描述

对于常用的β= 1，即F1，召回率和精度被赋予相等的权重，公式（174）可以简化为：
在这里插入图片描述

由于Fβ基于召回率和精度，因此它不能完全代表混淆矩阵

5.3. Matthews Correlation Coefficient (MCC)

Matthews相关系数（MCC）[30]捕获混淆矩阵中的所有数据，并测量二进制分类方法的质量。
在比较两个分类器时，一个分类器可能使用MCC得分较高，而另一个分类器使用F1得分较高，结果是一个特定指标无法捕获分类器的所有优点和缺点

5.4. Receiver Operating Characteristics (ROC)

（ROC）[219]曲线是评估分类器的有价值的图形工具。但是，类别不平衡（即先前类别概率的差异[220]）会导致ROC曲线无法很好地代表分类器性能。 ROC曲线绘制了真阳性率（TPR）和假阳性率（FPR）：
在这里插入图片描述

5.5. Area Under ROC Curve (AUC)

Yang [215]评估了文本分类的统计方法，并报告了比较分类器算法时应考虑的以下重要因素：
•对各种方法和实验进行比较评估，从而洞察性能变化背后的因素，并将在未来产生更好的评估方法；
•收集变异性的影响，例如在培训或测试集中包括未标记的文档，并将其视为负面实例，可能是一个严重的问题；
•类别排序评估和二进制分类评估显示了分类器在交互应用中的实用性，并分别强调了它们在批处理模式中的使用。对分类器进行两种类型的性能度量有助于检测阈值策略的效果；
•对分类器在大类空间中的可伸缩性进行评估是一个很少研究的领域。

参考：https://www.mdpi.com/2078-2489/10/4/150

Rock_y

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：Text Classfication Algorithms：A Survey（二）

论文阅读：Text Classification Algorithms: A Survey这是一篇关于文本分类的综述性文章，发表于2019年，由于文章篇幅较长，所以分开来写，这是第二部分，本次介绍第四、五章，包对现存分类技术的比较和分类任务的评估指标。第一三部分链接，下面开始~Text Classfication Algorithms：A Survey（二）4. Existing Classification Techniques4.1. Rocchio Classification4.2. Bo.
复制链接

扫一扫