论文阅读：Text Classfication Algorithms：A Survey（三）

最新推荐文章于 2024-09-16 01:21:17 发布

Rock_y

最新推荐文章于 2024-09-16 01:21:17 发布

阅读量888

点赞数 2

文章标签：自然语言处理深度学习机器学习数据挖掘

本文链接：https://blog.csdn.net/Rock_y/article/details/108445991

版权

在这里插入图片描述
论文阅读：Text Classification Algorithms: A Survey

这是一篇关于文本分类的综述性文章，发表于2019年，由于文章篇幅较长，所以分开来写，这是第三部分，本次介绍第六七八章，包对对文本分类的讨论，应用和结论。
原文链接：https://www.mdpi.com/2078-2489/10/4/150

第一二部分链接：
论文阅读：Text Classfication Algorithms：A Survey（一）
论文阅读：Text Classfication Algorithms：A Survey（二）

下面开始~

6. Discussion

在本文中，我们将简要介绍文本分类技术，并讨论相应的预处理步骤和评估方法。在本节中，我们将比较和对比这些技术和算法。此外，我们还讨论了现有分类技术和评估方法的局限性。选择有效的分类系统的主要挑战是了解不同管道步骤中可用技术的相似性和差异。

6.1. Text and Document Feature Extraction

我们概述了两种主要的特征提取方法：Weighted words(bag-of-words) and word embedding。单词嵌入技术从单词序列中学习考虑到它们的发生和共存信息。此外，这些方法是生成单词向量的无监督模型。相比之下，Weighted words(bag-of-words)的特征是基于对文档中的词进行计数，可以作为一种简单的词表示评分方案。每种技术都有其独特的局限性。
Weighted words(bag-of-words)直接从单词计数空间计算文档相似度，这增加了大词汇量的计算时间[223]。尽管唯一词的数量提供了相似性的独立证据，但它们并不能说明单词之间的语义相似性（例如“ Hello”和“ Hi”）。词嵌入方法解决了这个问题，但是由于需要大量的文本数据集进行训练而受到限制[224]。结果，科学家更喜欢使用预训练的词嵌入向量[224]。但是，这种方法不适用于这些文本数据语料库中缺少的单词。
例如，在某些短消息服务（SMS）数据集中，人们使用具有多种含义的单词（例如俚语或缩写），这些单词没有语义相似性。此外，在预训练词嵌入向量中不包括缩写。为了解决这些问题，正如我们在第2节中所讨论的那样，许多研究人员致力于文本清理。基于该单词和该单词的最近邻居训练了单词嵌入技术，例如GloV e，FastText和Word2V ec。关键限制（两个不同句子中一个词的含义可能不同）。为了解决这个问题，科学家提出了一种新颖的方法，称为情境化词表示法，该方法基于文档中词的上下文进行训练。如表1所示，我们比较并评估了每种技术，包括加权词，TF-IDF，Word2Vec，Glove，FastText和上下文化词表示。

6.2. Dimensionality Reduction

在第3节中，我们概述了许多降维技术。在本节中，我们将讨论此步骤相对于文本分类系统的计算时间和鲁棒性的有效性。降维主要用于改善计算时间和降低内存复杂性。
PCA试图找到包含最大可能方差的数据集的正交投影，以便提取数据集变量之间的线性相关性。PCA的主要局限性是该技术用于降维的计算复杂性[225]。为了解决这个问题，科学家引入了随机投影技术（第3节）。
LDA是一种用于降维的监督技术，可以提高提取特征的预测性能。然而，LDA要求研究人员手动输入组件的数量，需要标记的数据，并产生不容易解释的特征[226]。
随机投影的计算速度比PCA快得多。但是，这种方法对于较小的数据集效果不佳[227]。
自动编码器比其他DR方法需要更多的数据进行训练，因此如果没有足够的数据，则不能用作通用的降维算法。
T-SNE主要用于文本和文档数据集中的数据可视化。

6.3. Existing Classification Techniques

在本节中，我们将讨论现有文本和文档分类算法的局限性和优点。然后，我们在两个表中比较了最新技术。

6.3.1. Limitations and Advantages

如表2和表3所示，Rocchio算法受到以下限制：用户只能使用此模型来检索一些相关文档[108]。此外，算法的结果说明了文本分类的一些局限性，可以通过考虑语义来解决[109]。
Boosting and bagging方法还具有许多局限性和劣势，例如计算复杂性和可解释性的丧失[117]。
LR可以很好地预测分类结果。然而，这种预测要求每个数据点都是独立的[124]，它试图基于一组独立变量[125]来预测结果。
朴素贝叶斯算法也有一些局限性。 NBC对数据分布的形状做出了强有力的假设[134,135]。 NBC还受到数据稀缺性的限制，对于数据稀疏性，特征空间中的任何可能值都必须由专职人员估计[136]。
KNN是一种易于实现的分类方法，可适应任何类型的特征空间。该模型自然也可以处理多类案件[140,141]。但是，KNN受数据存储约束的限制，无法解决大型搜索问题以找到最近的邻居。另外，KNN的性能取决于找到有意义的距离函数，因此使该技术成为非常依赖数据的算法[142,143]。自1990年代问世以来，SVM一直是最高效的机器学习算法之一[159]。但是，它们受到大量尺寸导致的结果缺乏透明度的限制。因此，它不能将公司得分显示为基于财务比率或任何其他函数形式的参数函数[159]。另一个限制是可变财务比率比率[160]。
决策树是用于学习和预测的非常快速的算法，但是它对数据中的小扰动也极为敏感[166]，并且很容易过拟合[167]。可以通过验证方法和修剪来消除这些影响，但这是灰色区域[166]。该模型还存在样本外预测问题[168]。与其他技术相比，随机森林（即决策树的集合）训练起来非常快，但是一旦训练就很难创建预测[172]。因此，为了获得更快的结构，必须减少森林中的树木数量，因为森林中更多的树木会增加预测步骤中的时间复杂度。
对于CRF，CRF的最明显缺点是训练步骤的计算复杂度较高[176]，并且该算法无法对未知单词（即训练数据样本中不存在的单词）执行[177] 。深度学习（DL）是人工智能（AI）中最强大的技术之一，许多研究人员和科学家都致力于深度学习架构，以提高该工具的鲁棒性和计算能力。但是，深度学习架构在应用于分类任务时也具有一些缺点和局限性。该模型的主要问题之一是DL无法促进对学习的全面理论理解[202]。 DL方法的一个众所周知的缺点是其“黑匣子”性质[203,204]。即，不容易理解DL方法提出卷积输出的方法。 DL的另一个局限性是它通常比传统的机器学习算法需要更多的数据，这意味着该技术无法应用于小数据集上的分类任务[205,206]。另外，DL分类算法所需的大量数据进一步加剧了训练步骤[207]的计算复杂性。
表2.文本分类比较（Rocchio算法，boosting，bagging,，逻辑回归，朴素贝叶斯分类器，k最近邻和支持向量机）。
在这里插入图片描述

表3.文本分类比较（决策树、条件随机场、随机森林和深度学习）。
在这里插入图片描述

6.3.2. State-of-the-Art Techniques’ Comparison

关于表4和表5，将文本分类技术与标准进行了比较：体系结构、作者、模型、新颖性、特征提取、细节、语料库、验证措施和每种技术的局限性。每个文本分类技术（系统）都包含一个模型，该模型是分类器算法，还需要一个特征提取技术，即将文本或文档数据集转换为数字数据（如第2节所述）。我们比较的另一个重要部分是用于评估系统的验证措施。
在这里插入图片描述

表5.文本分类技术的比较（继续）。

6.4. Evaluation

文本分类器的实验评估衡量了有效性（即做出正确分类或分类决策的能力）。精确性和召回是衡量文本分类器有效性的重要指标。另一方面，准确性和误差（fp+fn / tp+tn+fp+fn=1− accuracy）并没有广泛用于文本分类应用，因为它们对分母（tp+tn）的大值导致的正确决策数量变化不敏感[215]。表6列出了上述每个指标的缺陷。

表6.指标陷阱。
在这里插入图片描述

7. Text Classification Usage(用法)

在ML和AI的最早历史中，文本分类技术主要用于信息检索系统。然而，随着技术的不断进步，文本分类和文档分类已经在医学、社会科学、医疗保健、心理学、法律、工程等许多领域得到了广泛的应用。在本节中，我们重点介绍了使用文本分类技术的几个领域。

7.1. Text Classification Applications

7.1.1. Information Retrieval（信息检索）

信息检索是从大量文档集合中查找非结构化数据的文档，以满足信息需求[230]。 随着在线信息的快速增长，尤其是文本格式的快速增长，文本分类已成为管理此类数据的重要技术[231]。该领域中使用的一些重要方法是Naïve Bayes、SVM、Decision Tree、J48、KNN和IBK[232]。文档和文本数据集处理最具挑战性的应用之一是将文档分类方法应用于信息检索[34233]。

7.1.2. Information Filtering

信息过滤是指从输入数据流中选择相关信息或拒绝不相关信息。信息过滤系统通常用于衡量和预测用户的长期利益[234]。概率模型，如贝叶斯推理网络，常用于信息过滤系统中。贝叶斯推理网络使用递归推理通过推理网络传播值，并返回排名最高的文档[34]。Buckley，C.[235]使用向量空间模型进行迭代求精以完成过滤任务。

7.1.3. Sentiment Analysis

情感分析是文本中识别观点、情感和主观性的计算方法[236]。情绪分类方法将与观点相关的文档分类为正面或负面。假设文件D对一个实体E表达了意见，意见是通过一个意见持有人H[237]形成的。朴素贝叶斯分类和支持向量机是一些最流行的监督学习方法，已用于情绪分类[238]。在情感分类技术中，词汇及其各自的频率、词类、观点词和短语、否定词和句法依赖性等特征已被使用。

7.1.4. Recommender Systems

基于内容的推荐系统根据项目的描述和用户兴趣的概要向用户推荐项目[239]。用户配置文件可以从用户对项目的反馈（搜索查询或自我报告的历史记录）以及个人配置文件中的自我解释功能（筛选或查询条件）中学习。这样，对此类推荐系统的输入可以是半结构化的，以便从自由文本字段提取一些属性，而其他属性则直接指定[240]。许多不同类型的文本分类方法，如决策树、最近邻方法、Rocchio算法、线性分类器、概率方法和朴素贝叶斯，都被用于对用户偏好进行建模。

7.1.5. Knowledge Management

文本数据库是信息和知识的重要来源。大部分企业信息（近80%）以文本数据格式（非结构化）存在。在知识蒸馏中，模式或知识是从可以是半结构化（例如概念图表示）或结构化/关系式（例如数据表示）的直接形式推断出来的。一个给定的中间形式可以是基于文档的，这样每个实体都代表一个特定领域中感兴趣的对象或概念。文档分类是挖掘基于文档的中间表单最常见的方法之一[241]。在其他工作中，文本分类被用来找出铁路事故的原因与报告中相应描述之间的关系[242]。

7.1.6. Document Summarization

用于文档摘要的文本分类，其中文档的摘要可以使用原始文档中没有出现的单词或短语[243]。由于在线信息的迅速增加，也需要多文档摘要[244]。因此，许多研究人员专注于使用文本分类从文档中提取重要特征的任务。

7.2. Text Classification Support

7.2.1. Health

医学领域中的大多数文本信息都以结构化或叙述性的形式呈现，带有不明确的术语和印刷错误。此类信息需要在诊断和治疗的不同阶段的整个患者-医师接触中即时获得[245]。医疗编码包括将医学诊断分配给从大量类别中获取的特定类别值，是医疗保健应用程序中文本分类技术非常有价值的领域。在其他研究中，J。Zhang等人。引入Patient2V ec来学习纵向电子健康记录（EHR）数据的可解释的深度表示，该数据针对每个患者进行了个性化设置[246]。 Patient2V ec是一种文本数据集特征嵌入的新技术，它可以基于递归神经网络和注意力机制来学习EHR数据的个性化可解释的深度表示。文本分类还被用于医学主题词（MeSH）和基因本体论（GO）的开发[247]。

7.2.2. Social Sciences

在过去的几十年中，文本分类和文档分类已越来越多地用于理解人类行为[38,248]。最近在人类行为研究中，以数据为驱动力的工作集中在非正式注释和文本数据集中包含的挖掘语言上，包括短消息服务（SMS），临床注释，社交媒体等[38]。 这些研究主要集中在使用基于单词出现频率（即单词在文档中出现的频率）的方法或基于语言查询单词计数（LIWC）的特征[249]，这是一种经过充分验证的单词类别词典与心理有关[250]。

7.2.3. Business and Marketing

获利的公司和组织正在逐步将社交媒体用于营销目的[251]。从社交媒体（如Facebook，Twitter等）开放采矿是公司快速提高利润的主要目标[252]。文本和文档分类是公司更轻松地找到客户的强大工具。

7.2.4. Law

政府机构产生了大量的法律文本信息和文件。检索这些信息并对其进行自动分类，不仅可以帮助律师，还可以帮助他们的客户[253]。在美国，法律来源于五个方面：宪法、法律、条约、行政法规和普通法[254]。每年都会创建许多新的法律文件。这些文件的分类是律师界面临的主要挑战。

8. Conclusions

分类任务是机器学习中必不可少的问题之一。随着文本和文档数据集的激增，受监督的机器学习算法的开发和文档化成为当务之急，尤其是对于文本分类而言。对于此信息，有一个更好的文档分类系统需要识别这些算法。但是，如果我们对特征提取方法以及如何正确评估它们有更好的了解，则现有的文本分类算法将更有效地工作。
当前，文本分类算法主要可以通过以下方式进行分类：（I）特征提取方法，例如术语频率-逆文档频率（TF-IDF），术语频率（TF），词嵌入（例如Word2Vec，上下文化的单词表示形式，单词表示形式的全局向量（GloV e）和FastText）已广泛用于学术和商业应用中。在本文中，我们讨论了这些技术。但是，清理文本和文档可以帮助提高应用程序的准确性和健壮性。我们描述了文本预处理步骤的基本方法。
（II）降维方法，例如主成分分析（PCA），线性判别分析（LDA），非负矩阵分解（NMF），随机投影，自编码器和t分布随机邻居嵌入（t-SNE），在降低现有文本分类算法的时间复杂度和内存复杂度方面很有用。在单独的部分中，介绍了最常见的降维方法。
（III）现有的分类算法，例如Rocchio算法，装袋和提升，逻辑回归（LR），朴素贝叶斯分类器（NBC），k最近邻（KNN），支持向量机（SVM），决策树分类器（DTC）），随机森林，条件随机场（CRF）和深度学习是本文的主要重点。
（IV）解释了评估方法，例如准确性，Fβ，马修相关系数（MCC），接收器工作特性（ROC）和曲线下面积（AUC）。利用这些度量，可以评估文本分类算法。
（V）为了解决每种技术，解决了文本分类管道中每个组件的关键限制（即，特征提取，降维，现有分类算法和评估）。最后我们比较本节中最常见的文本分类算法。
（Ⅵ）最后，在单独的部分中介绍了将文本分类用作应用程序和/或支持其他专业（如非专业，医学等）的用法。在这次调查中，讨论了文本分类算法的最新技术和趋势。

终于，终于写完了。。！撒花~

参考：https://www.mdpi.com/2078-2489/10/4/150