A Study of the Robustness of KNN ClassifiersTrained Using Soft Labels--论文阅读笔记

摘要

监督学习模型最常使用清晰标签进行分类器训练。当存在重叠类时,清晰的标签无法捕获数据特征。在这项工作中,我们尝试比较使用软标签和硬标签来训练 K 最近邻分类器的学习。我们提出了一种基于数据的模糊聚类和聚类原型的模糊重新标记来生成软标签的新技术。在五个数据集上进行了实验,以比较使用不同类型的软标签学习的分类器和使用清晰标签学习的分类器。结果表明,与使用清晰标签学习相比,使用软标签学习对标签错误的鲁棒性更强。还发现所提出的从数据中查找软标签的技术可以在所研究的大多数数据集中进行更稳健的训练。

1、介绍

处理模糊性是许多模式识别问题中的常见问题。这种模糊性有时是由于重叠类的存在。在监督学习模型(分类器设计)中,清晰的标签主要用于训练。清晰的标签指示训练模式对单个类的成员资格。这样的标签在实际应用中很难获得,并且无法反映类之间可用的自然分组或不确定性。

        机器学习社区很少尝试讨论使用软标签进行分类器训练的必要性、方法和优点 [1,2]。软标签允许一个模式属于多个不同程度的类。根据其条目所指示的内容,软标签可以被认为是模糊的、概率的或可能的。在 [3] 中可以找到对硬标签、模糊标签、概率标签和可能标签的评论。

        在特征空间具有重叠或定义不明确的类的情况下,使用软标签非常有用,可以适应外部教师对某些模式的不确定性,模拟多位专家的意见,以及处理语言特征 [ 1]。 在医学等一些现实世界的应用中,训练数据的清晰(清晰)分类可能很困难或不可能:通常只能以概率(模糊)方式将患者分配给某种疾病[4]。

        然而,在大多数情况下,数据集最常使用清晰的标签进行标记。尽管如此,可以生成软标签以提供更真实的训练模式成员资格,以确保稳健的训练 [5]。在 [2] 中,Kuncheva 回顾了各种生成软标签的方案,并讨论了使用软标签进行学习是否可以提高分类器性能。对 K-最近邻分类器 (KNN) 的详细实验调查结果表明,虽然在使用模糊标签的 K-最近邻分类器和模糊-K-最近邻分类器 (FKNN) 中没有明显的赢家; FKNN 对于某些应用程序可能是一个有用的选择,因为它提供了有关分类决策确定性的附加信息。 Keller 等人 [6] 声称错误率的提高可能不是使用 FKNN 模型的主要好处。更重要的是,该模型提供了一定程度的确定性,可以与“拒绝决定”选项一起使用。因此可以分别检测和处理具有重叠类的对象。

        很少有工作致力于研究嘈杂测试实例下的学习 [7,8,9],主要限于研究施加在硬标签上的噪声。在这项研究中,我们尝试比较使用软标签训练的分类器与使用硬标签训练的分类器对标签错误的鲁棒性。在我们的问题中,我们主要感兴趣的是研究类不互斥的情况,因此每个训练样本都允许有多个类标签。这对于多标签问题是不同的;其中多个候选类别标签与每个训练实例相关联,并且假设只有一个候选类别标签是正确的标签 [10]。我们的工作还引入了一种基于 [11] 中提出的广义最近原型分类器 (GNPC) 的新标记技术。 GNPC 已被证明可以统一不同的分类技术,如聚类和重新标记、Parzen 分类器、径向基函数网络 (RBF)、学习向量量化 (L VQ) 类型的分类器;和最近邻规则。在这项研究中,我们专注于 GNPC 的一个家族,以使用它来生成基于聚类和重新标记的软标签。特别是我们的方法使用数据点的模糊聚类和原型的模糊重新标记来为数据向量分配软标签。

        在五个数据集上进行了实验,以比较使用清晰标签和不同类型的软标签学习的分类器性能。实验是在施加在数据标签上的不同噪声水平下进行的。本研究中使用清晰/软标签进行学习的分类器是 KNN。 KNN 模型是简单、广泛适用的模型,通常被认为是许多神经网络模型和其他分类范式的良好竞争对手 [11]。已经详细研究了使用软标签(即 FKNN)学习的 KNN 变体 [2],而大多数神经模型和其他已知分类技术主要设计用于使用清晰标签。我们的研究将在未来的工作中扩展到使用软标签的其他分类范式包括使用模糊标签的 MLP 和 RBF 学习 [5,1] 以及最近使用软标签学习的 L VQ 模型的工作 [12]。

        本文的结构如下;第 2 节回顾了两种基于 KNN 分类生成软标签的方法。第 3 节提出了一种基于 GNPC 的新技术,使用模糊聚类和模糊重新标记。第 4 节描述了使用的数据集,并概述了所进行实验的细节。在第 5 节中,对结果进行了说明、总结和讨论。最后,本文在第 6 节结束。

2 软标签

        

3 生成软标签GNPC

        基于原型的分类可能是最简单和最直观的模式识别范式。有许多分类技术隐式或显式地基于点原型的相似性,例如 RBF 网络、L VQ 和 L VQ 的一些最近扩展,将数据向量软分配到原型 [12,13,14,15]。与 K-最近邻方法一样,最近原型分类器 (NPC) 是一种局部分类方法,因为分类边界是局部近似的。然而,NPC依赖于一组适当所选择的原型向量而不是利用训练集的所有数据点。这使得该方法的计算效率更高,因为必须存储的项目数量以及必须与新数据点进行比较以进行分类的项目数量要少得多。在 [10] 中,提出了一个用于广义最近原型分类器 (GNPC) 的集成框架。五个大型分类器家族被证明适合 GNPC 框架。这五个家族最重要的不同在于获得原型的方式,而不是它们的正式 GNPC 表示。下面列出了 GNPC 的定义

4 实验与数据

        在五个不同的数据集上进行了实验。所有数据集都具有一些类存在一定程度重叠的特点。第一个数据集是包含 4 个特征和 3 个类的 Iris 数据集。我们还使用了两个基准合成数据集 [2],它们是二维的。第一个句法数据集,正态混合数据,由两个类组成,由具有相同协方差矩阵的两个正态分布的混合生成。已选择类分布以允许 8% 的最佳可能错误率。第二个句法数据集,Cone-torus 数据集由 3 个类组成,由三个不同形状的分布生成;其中每个类别的模式不相等,而是以 0.25、0.25 和 0.5 的频率分布。我们还使用从哥伦比亚对象图像库 [21] 获得的一组对象图像,即 COIL 数据。该数据集包含 20 个不同对象的图像的 8 个特征,每个对象有 72 个训练样本可用。

        表 2 总结了所用数据集的特征。 此外,我们使用来自 ELENA 数据库 [22] 的 Satimage 数据; 它代表 Landsat 多光谱扫描仪图像数据,由 6435 个模式组成,每个模式 36 个属性代表 6 个不同类别(红土、棉花作物、灰土、潮湿灰土、有植被残茬的土壤和非常潮湿的灰土)。 表 2 总结了所用数据集的一些特征。

        我们在数值实验中主要使用 K 近邻分类器(KNN)。 KNN 分类器因其易于使用和实现、对噪声数据的鲁棒性以及在许多吸引人的应用程序中的广泛适用性而广受欢迎 [23]。我们使用了使用软标签训练的 FKNN [2] 的简单版本。将使用清晰标签训练的 KNN 与使用第 2 节中描述的不同软标签训练的 FKNN 进行比较。对上述五个数据集重复实验。为了评估不同标签的稳健性,我们在不同百分比的训练集上强制错误,并检查了使用清晰标签和软标签的三种变体训练的分类器的性能。这些错误被引入到清晰的训练数据集中,然后通过相应的标记方案映射到软标签中。使用 10 倍交叉验证 [24] 计算了比较技术的准确性。请注意,等式 1 和 2 中用于生成 KNN 软标签和 Keller 软标签的 K-最近邻值 k 不必与用于 KNN 和 FKNN 分类器的 K-最近邻值相同用于最终分类;因此,我们将后一个值称为 K 以避免混淆。我们研究了在我们的实验中选择 k(用于软标签生成)和 K(用于最终分类器)的影响。特别是,我们使用 KNN 软标签和 Keller 软标签生成软标签,用于 k = 3、5、7、9、11、13、15。对于 KNN 和 FKNN 分类器,我们重复 K = 3、5 的实验, 7, 9 适用于所有数据集。在下一节中,将介绍和讨论实验结果。 

5 结果与讨论

        图 1、2、3、4 和 5 分别说明了 Isis 数据集、Normal hybrids 数据集、Cone Torus 数据集、Coil 数据集和 Satimage 数据集的结果。这些图比较了用清晰标签训练的 KNN 分类器的准确度和用清晰标签训练的 FKNN 分类器的准确度

 

KNN 软标签,Keller 等人。软标签和提议的 GNPC 软标签。当噪声被引入类标签时,计算不同技术的准确度。在实验中,使用均匀分布随机翻转了 5-95% 的类别标签。 KNN 和 FKNN 分类器在 K = 3 的结果针对所有数据集呈现为其他值的结果

当比较不同的标记技术时,K 的值导致所有技术或多或少相似的相对行为。图 1 概述了 K = 3、7、9 时 Iris 数据集的结果。使用 Keller 软标签和 KNN 软标签训练的分类器的性能表现出对 k 选择的敏感性;其中使用 KNN 软标签训练的分类器的结果通常对 k 的选择更敏感。不同的数据集在 k 的选择(以及分类器的 K 的选择)下表现不同,但通常实验表明,对于所有正在研究的数据和分类器模型,k 的合理选择是 7 或 9。在图 1-5 中,我们将 k 固定为 7。图 6 和图 7

        分别研究使用 Keller 软标签和 KNN 软标签训练的分类器的性能,其中 k = 3、5、7、9、11、13、15 分别用于 Iris 和 Satimage 数据集。对于 GNPC 软标签,我们使用了一种自适应技术来为每个数据集找到最佳聚类数“p”,如前所述。对于 Iris 数据集,我们使用了 10 个簇,Normal Mixtures 数据使用了 20 个簇,Cone torus 数据使用了 45 个簇,Coil 数据使用了 300 个簇,Satimage 数据使用了 120 个簇。 

        使用 FCM 软标签训练的分类器的性能受所选集群“p”数量的影响,并且数量之间存在关系

         数据中可用的类的数量和足够的集群的数量。我们建议从类数的 10 倍数的集群数开始。对于 GNPC 软标签,我们还为 FCM 算法使用了 2 的模糊化常数,除了 Coil 和 Satimage 数据集,我们将模糊化常数降低到 1.1,以防止 FCM 聚类产生的软标签在多个类。为了推断给定数据点的软标签,我们使用了 max-product [20] 组合算子。

         检查图 1 到图 5 所示的结果,很明显,使用清晰标签训练的 KNN 分类器的准确度通常较低

        与使用不同软标签训练的 FKNN 分类器相比,对标签上的错误具有鲁棒性。使用软标签训练的 FKNN 似乎能够保持稳健的性能,Iris 数据的错误率高达 65%,Normal Mixtures 数据的错误率高达 45%,Cone torus 数据的错误率高达 75%,最后直到 95%线圈数据和卫星图像数据;与使用清晰标签训练的 KNN 相比。同时,与其他 KNN 和 Keller 软标签相比,使用 GNPC 软标签训练的 FKNN 分类器在大多数情况下能够保持更稳定的准确度。 

6 结论和未来工作

        在这项工作中,我们提出了一种新技术,可以从可用的清晰标签中获取软标签,该技术基于数据的模糊聚类和聚类原型的模糊重新标记。模糊标签是通过基于模糊逻辑的推理获得的。所提出的方法是从一个 GNPC 家族扩展而来的,该家族统一了许多不同的分类技术。

        测试了使用清晰和软标签训练的分类器的鲁棒性。对五个数据集进行了实验,以比较分类器在数据标签中存在错误时的行为。结果揭示了使用软标签训练的 KNN 分类器与使用清晰标签训练的分类器相比的鲁棒性。所提出的基于模糊聚类和模糊重新标记的软标记方案通常对标签上的错误具有最强的鲁棒性,并且对参数的选择(如 KNN 和 Keller 软标记技术中的 k 参数)和 KNN 分类器模型不太敏感.在我们未来的工作中,我们打算通过探索和扩展 GNPC 框架的其他家族来研究更多生成软标签的替代方案,并研究使用软标签学习的其他分类器模型(MLP、RBF、LVQ 和 SVM)的有效性。

        我们还特别打算在数据集未完全标记或使用不同信息源标记的情况下研究软标签的其他替代方案。我们还旨在在多个分类器系统的框架中使用软标签,并在准确性和鲁棒性的背景下类似地测试它们的有用性。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 评估机器学习系统的鲁棒性通常需要考虑以下几个方面: 1. 对抗性样本:测试模型对于被针对性地构造的样本的容忍程度。例如,攻击者可能会对原始数据进行微小的修改,以此来欺骗模型,使其做出错误的预测。评估模型的抗性能够帮助我们了解模型的一般化能力和安全性。 2. 数据偏差:测试模型在不同数据集和分布上的表现。例如,如果模型只在特定的数据集上进行训练,那么它可能会在其他数据集上表现较差。评估模型在不同数据集和分布上的表现能够帮助我们了解其在实际应用中的效果。 3. 噪声鲁棒性:测试模型对于输入数据中的噪声的容忍程度。例如,在图像分类任务中,一些像素可能被意外地修改或删除,这可能会使模型难以正确分类图像。评估模型对于噪声的鲁棒性能够帮助我们了解其在实际应用中的可靠性。 4. 模型不确定性:测试模型对于输入数据中的不确定性的处理能力。例如,在自然语言生成任务中,模型可能无法确定某些单词的正确顺序或含义。评估模型对于不确定性的处理能力能够帮助我们了解其在实际应用中的可靠性和稳定性。 综上所述,评估机器学习系统的鲁棒性需要综合考虑多个方面,并且需要在实际应用场景中进行测试和验证。 ### 回答2: 我们可以通过以下几种方式评估一个机器学习系统的稳健性: 1. 鲁棒性测试:我们可以针对各种不同的输入情况对系统进行测试,包括正常输入、异常输入、噪声输入等。如果系统在各种情况下都能保持较好的性能,那么我们可以认为它是鲁棒的。 2. 稳定性分析:我们可以对系统进行随机性测试或者重复性测试,看系统在多次运行中是否产生一致的结果。如果系统的输出结果在不同运行中保持稳定,那么可以认为系统是稳定的。 3. 对抗性测试:我们可以利用对抗样本攻击的方法来测试系统的鲁棒性。通过对输入样本做出微小改动,观察系统预测结果是否发生明显的错误。如果系统能够有效抵御对抗样本攻击,那么可以认为它是鲁棒的。 4. 数据集扩展:我们可以使用更大、更多样的数据集来训练和测试机器学习系统。如果系统在不同数据集上都表现良好,那么可以认为它的鲁棒性更高。 5. 基准测试:我们可以将机器学习系统与其他同类型的系统进行比较,看其在相同任务上的性能差异。如果系统相比其他系统表现更优秀,那么可以认为它具有较高的鲁棒性。 综上所述,我们可以通过以上几种方式来评估一个机器学习系统的稳健性,从而了解其在各种实际应用中的可靠性和表现情况。 ### 回答3: 评估机器学习系统的鲁棒性可以采取以下几种方法: 1. 对抗性测试:通过主动引入干扰或攻击来评估机器学习系统在外部干扰条件下的性能。例如,可以利用对抗样本生成算法创建一些具有微小扰动的输入样本,观察系统是否能正确分类这些样本。 2. 鲁棒性分析:通过观察机器学习系统在不同离群值、异常情况或缺失数据等情况下的表现来评估其鲁棒性。可以通过添加噪声或删除部分训练数据来模拟这些情况,然后观察系统对这些变化的适应能力。 3. 交叉验证:通过将数据集划分为训练集和测试集,使用训练集进行模型训练,再在测试集上进行评估来评估机器学习系统的鲁棒性。通过交叉验证可以检验系统对于不同数据分布的适应能力。 4. 分布偏移检测:通过检测输入数据分布的变化来评估机器学习系统的鲁棒性。当模型在预测时遇到与训练数据分布不同的测试数据时,可能会导致性能下降。可以使用一些分布偏移检测算法来检测这种情况。 5. 敏感性分析:通过评估模型对输入特征的变化的敏感性来评估机器学习系统的鲁棒性。可以逐个改变输入特征,观察模型输出的变化程度,从而获得对系统的敏感性指标。 综上所述,评估一个机器学习系统的鲁棒性需要通过对抗性测试、鲁棒性分析、交叉验证、分布偏移检测和敏感性分析等多种方法来综合评估系统在不同情况下的性能表现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值