ICLR 2024：无需标签即可评估模型性能？-CSDN博客

本文链接：https://blog.csdn.net/Kaiyuan_sjtu/article/details/135985200

作者 | 彭儒@浙江大学

整理 | NewBeeNLP

https://arxiv.org/abs/2401.12689

后台留言『交流』，加入 NewBee讨论组

大家好，这里是 NewBeeNLP。

今天分享来自浙江大学ICLR 2024的关于自动模型评估AutoEval的最新工作：MDE。

概要

机器学习模型的传统评估协议严重依赖于 带标签的 、 独立同分布 假设的测试数据集，而这在实际应用中并不常见。自动模型评估（）展示了一种替代传统工作流的方法，通过形成一个近似预测流程来预测模型性能，而无需实际的标签。尽管框架最近取得了成功，但仍然存在过度自信、存储需求大和计算成本高的问题。

对此，我们提出了一种新颖的措施 —— ，它使框架更加高效和有效。的核心是针对与各个样本相关的信息（能量分数）建立元分布统计，然后通过基于能量的学习提供更平滑的表示。

我们通过将与分类损失联系起来，进一步提供我们的理论见解。我们提供了跨模态、数据集和不同网络架构的广泛实验，以验证的有效性以及与先前方法相比的优越性。我们还通过展示与大型模型的无缝集成以及轻松适应带有噪声或不平衡标签的学习场景来展示的通用性。

文章链接：Energy-based Automated Model Evaluation^[1]
代码链接：https://github.com/pengr/Energy_AutoEval

背景

随着机器学习技术的巨大进步，评估模型性能在研究和实践中变得越来越重要。标准评估需要使用带标注、并与训练集独立同分布的测试集。然而，这种传统的方法在现实部署中可能会失败，因为现实场景中经常会遇到分布偏移和缺乏真实标签的情况。在的环境中，模型的性能可能会有明显下降，这使得利用分布内测试集的准确度衡量模型泛化性能变得不再可靠。此外，通常在的真实应用场景中标注新的测试集的成本是非常昂贵且不切实际的。为了应对这些挑战，在不带标签的情况下预测模型在各种数据集上的性能，即自动模型评估（），已成为一种有前途的解决方案。

现有的方法包括利用数据集上模型输出的置信度、一致性分数、网络参数统计、引入辅助自监督任务等，但这些方法常常会遇到过度自信、计算/存储开销过大等问题，使得在现实部署中存在障碍。对此，我们希望建立一个简单，但更高效、更有效的框架，而不需要借助太多外部资源。

我们从能量模型（）提出的能量分数中获得启发，扩展得到了一个更强大的统计量。该统计量基于单独表征每个样本的能量分数进行归一化，将整体样本的信息量转换为概率分布的统计量，与初始能量分数相比，提供了数据集分布的更平滑的表示。

本文的 主要贡献 如下：

我们以为核心建立了一套简单但有效的流程，具有即插即用的特性，并将应用于现实生产。
实验结果表明在跨模态、数据集和网络骨干设置下，的预测精度显著超越了之前的同类方法，并创造了新的记录。此外，的有效性得到了理论解释的支持。
在鲁棒性方面同样优于现有的方法。

二、AutoEval框架

对于一个给定的模型，评估模型精度需要进行如下几步操作：

2.1 合成集

我们利用分布内测试集作为源数据集，施加不同强度的多种变换操作生成一系列合成数据集（个），每个合成数据集相对于源数据集都有一定的分布偏移，变换操作的类型可以参考下图。以为例，我们施加了 19 种变换，每种变换有 5 种强度，这样便得到了 95 个合成数据集。

2.2 计算 MDE 和 acc

对每个合成数据集里的每个样本，我们都可以计算得到一个能量分数，形式为：，其中为温控参数，为类别数，为模型针对第个类输出的。

之后我们对一个合成数据集里所有样本的能量分数施加变换和取均值操作便可得到我们的评估指标，形式为：，其中为数据集里的样本数。

因为每个合成数据集的标签都和源测试集的标签相同，模型经过推理便可获得该合成数据集上的精度。

对所有合成数据集都施加如上操作便可得到一系列的值对。

2.3 建立回归直线

根据这些对可以拟合得到一条回归直线（参照下图）。在真实场景中部署时只需计算出模型在新数据集上的即可无监督地预测出模型的精度。

我们方法的完整流程可以参照以下算法框图。

三、理论分析

我们通过理论分析给出了一个定理来展示和交叉熵之间的关系。

定理：给定一个良好分类、具有最佳交叉熵的模型 , 对于每个样本点，它的分类损失和的差值，可以被下式描述：

其中是标签空间，是我们提出的能量元分布指示器，是负对数似然损失函数，是接近于的温度常数。

（完整的证明参照原论文）

我们可以通过比较和来确定标签是否对应于最大，从而评估模型的准确性。

四、实验结果

4.1 主要结果

我们和当前的方法在、、、等视觉和文本的数据集上进行了比较，衡量了相关系数和平均绝对误差。相关系数越高，越低性能越好。

如上图所示，我们的在跨模态、数据集和骨干网络的公平比较中超越了当前的方法。实验结果表明，的性能显著优于常见的免训练方法，这些增益可能受益于重新校准置信度时的温度缩放。同时，也优于需要训练模型的方法，这一优势方案既提高了性能，又降低了成本，并无缝满足了流行的大语言模型的评估需求。这一系列的结果证实了是一种具有广泛适用性的有竞争力的技术。

（完整的实验结果请参照原论文）

4.2 超参数敏感性分析

当我们采用基于的框架时，我们想知道其性能对超参数的敏感性。因此，我们研究温度参数和随机种子的变化对性能的影响。

如图7(a)所示，我们发现随着温度参数的增加，性能在下降，最好的性能在时取得。

如图7(b)所示，我们选择不同的随机种子进行训练，发现不同随机种子对于结果的影响非常小，这说明我们框架的性能对随机性具有鲁棒性。

4.3 强噪声和类别不平衡的情况

强噪声

在之前的分析中，我们在自然偏移的测试集上测试了我们的方法。考虑到现实世界的场景可能更复杂，我们通过在自然转移的测试集上应用新的转换，在更真实的测试环境中测试和的稳健性。根据图3左侧图我们观察到如下结果：首先，偏移强度越大，两种方法预测准确性就越困难。重新转换的测试集（-A/B）中的准确率预测结果比未转换的状态更差。此外，与其他数据集相比，具有较大偏移的和的性能下降幅度更大。其次，在经过新变换的噪声数据下，我们的方法始终取得比更优异的结果（）

类别不平衡

考虑到现实世界的数据通常不像我们的工作那样是类平衡的，一些类被欠采样或过采样，导致标签偏移。为了研究类别不平衡的影响，我们从合成数据集创建长尾不平衡测试集。具体来说，我们应用指数衰减来控制不同类别的比例。它由不平衡比率 () 表示，即最不常见类别和最常见类别的样本量之间的比率，范围为。如图 3 右侧所示，我们的方法在中等不平衡（）下比更稳健。当然，当存在严重的类别不平衡（）时，我们的方法也会受到标签移位的严重影响，但它仍然领先于。此时，考虑额外的技术，例如标签移位估计可能是解决这个问题的一个潜在想法。

结论

在这项工作中，我们引入了一种新颖的措施，即，以提高框架的效率和有效性。我们的通过建立单个样本能量的元分布统计来解决过度自信、高存储要求和计算成本的挑战，并得到了理论分析的支持。通过跨模态、数据集和网络骨干的广泛实验，我们通过微观结果、超参数敏感性、压力测试和深入的可视化分析展示了的卓越性能和多功能性。