共形预测理论解释


关键词:
Conformal prediction theory 共形预测理论

一、说明

在这篇文章中,我们将了解共形预测的基本理论,这是一种强大的算法,允许数据科学家量化预测模型的不确定性并设置理想的误差阈值。

只要机器学习解决方案无处不在并影响我们生活的多个方面,最近出现了另一个可以简单地描述为可解释 AI 的要求是确保公平和公正的世界的必要条件。这个术语包括很多要求,从决策是如何做出的、是否合乎道德、预测中是否存在任何偏差、如何解释、预测的准确性等开始。今天,我们将看看关于预测的模型确定性,看看是否有可能控制模型的置信度。简短的回答是——是的!

二、从简单示例入手

让我们看一下分类和回归的两个简单示例:

我们有模型 A 和 B 来预测客户流失。这两个模型都预测客户不会流失,最终我们会发现这个预测是真的,所以我们有一个真正的正例子。但是,我们应该选择哪种模式呢?他们能得到同等的信任吗?要回答这个问题,我们需要参考概率:模型 A 预测客户不会流失的概率为 55%,而模型 B 预测的概率为 75%。现在答案很清楚,模型 B 在这个特定的预测中表现得更好,因此模型 B 应该比模型 A 更(小心地)更值得信任。
同样,我们有两个模型 C 和 D 来预测第二天的天气。模型 C 预测 15 度,方差为 2 度,模型 D 预测 15 度,方差为 4 度。第二天,我们发现预测再次正确。遵循与前一种情况类似的逻辑,我们可以假设模型 C 比模型 D 更准确,因为模型 C 的可能温度范围更窄,因此可能的误差更低。
只要模型为我们提供的不仅仅是预测,我们就可以使用类概率进行分类,使用方差来定义样本的一致性或不一致性度量,这些样本已应用于包含真值标签的特殊校准数据集,然后将它们与测试集或未标记数据集中的新样本进行比较。因此,我们可以根据新样品的类别概率或方差值来估计新样品相对于特殊校准表的不同或相似程度。此外,我们可以设置可容忍误差的理想阈值。这就是共形预测将发挥作用的地方!

保形预测的概念在很久以前就首次在本书中被引入(Vovk, V.;Gammerman, A.;Shafer, G. 随机世界中的算法学习;施普林格:纽约,2005 年)。幸运的是,它已经被数据科学家和化学信息学家广泛接受——至少这是我第一次发现共形预测的实际用途的领域。那么,现在让我们看看分类和回归问题的共形预测算法。尽管这些算法非常简单明了,但可能需要一些时间才能完全理解这个概念,了解它的用处并开始将其应用于您的日常数据科学例程。

三、用于分类的共形预测

按照监督机器学习问题的标准程序,为了首先训练模型,我们应该将数据分为训练集和测试集(为简单起见,我们不打算考虑交叉验证的情况)。为了应用共形预测,我们需要引入第三个数据集进行校准。比例可能如下:70-80% 用于训练,10-15% 用于校准和测试。另外,请不要忘记对目标变量进行分层抽样,并尽可能考虑使用平衡的数据集——不过,这是相当标准的分类要求。通常,测试集和校准集的大小可以相同。但是,请注意,这始终取决于您的数据集 — 它有多大、您有多少个类、它们的平衡程度等。为简单起见,我们将看一下二元分类问题。值得注意的是,共形预测对类的数量没有任何限制。

如前所述,当我们使用训练数据集训练模型时,我们只需要遵循拟合-预测模式的标准程序(见图 1)。
在这里插入图片描述
但是,现在我们有两个数据集,而不是一个(测试),因此首先我们需要将训练后的模型应用于校准数据集。之后,我们需要从校准数据集中提取类概率,并按其预测概率降序对每个真实类进行排名(参见图 2,左表)。类概率是最简单明了的值,可以用作分类问题的一致性/不符合性的度量。
在这里插入图片描述
之后,我们需要获取训练数据集的模型预测。现在,我们准备好进行共形预测,我们只需要将测试集概率与校准集概率进行比较,并根据现有概率确定它们的等级。换句话说,我们将根据其类别概率定义如何比较保形(或非保形)测试样品与校准数据集。定义新样本的秩后,我们可以使用一个简单的公式计算 p 值(不是这些 p 值):
在这里插入图片描述
其中 r 是样本的秩,c_i 是每个类 i 的校准集中的记录数。这样,我们将获得每个样本的每个类别的 p 值(参见图 2,右表)。

那么下一步是什么?我们为什么会得到这些 p 值,它们如何帮助我们进行预测?这是最令人兴奋的部分。我们可以设置所需的误差率(或预测的显著性水平),然后我们将始终根据所选误差率获得有效的预测。如果您想非常精确,您可以选择 1% 的错误率(或 0.99 显著性水平),或者您可能希望避免大量假阳性,以便将要求放宽到 15% 的可容忍误差(0.85 显着性水平)。

这是如何工作的?我们只需要比较 p 值,p 值基本上是衡量新样品与校准数据集中样品一致性的指标。如果某个类的 p 值等于或大于所需的错误率,则认为它属于有效预测。这意味着某些预测实际上将进行设置,而不是单个值。这可以通过以下方式解释:预测与多个类相形,因此它属于可能类的域,并且同时属于这两个类。这意味着模型不是很确定这是哪个类,但它是一个有效的样本。可能还有另一种情况:每个类的 p 值小于所需的错误率,在这种情况下,预测将是一个空集,并且被视为无效预测。这种情况的解释可能是预测超出了可能类的领域。这种情况可能表明以下内容:
1 您可能有另一个以前未考虑过的类。如果您的数据发生偏移,并且不再与模型和用于训练此模型的训练数据集以及校准数据集相关,则可能会发生这种情况。
2 模型很难对样本进行分类,因此可能需要在训练集和校准集中包含更多类似类型的样本。
3 您的数据集非常不平衡,因此您需要引入更多此类样本,这样您在校准表中就会有一个不错的表示。

四、回归的共形预测

回归问题的情况通常与分类相同,并遵循图 1 中所示的相同模式。我们需要有三个数据集,我们需要训练一个模型并对校准数据集进行排名。唯一的区别是我们如何定义 Alpha — 一致性/不符合性的衡量标准。在这里,我们实际上可能有多种选择。最直接的度量可能是预测方差或绝对误差,它们自然来自最知名的回归模型。但是,可以引入更具体的函数。此外,我们可以对预测区间进行归一化,以便潜在地最小化预测区域,从而获得每个样本的单独预测边界。您可以在本文(链接)中阅读有关回归情况的不同一致性/非一致性测量和归一化的更多信息。

对预测边界进行排名的算法如图 3 所示。作为 Alpha,我们将使用绝对误差:实际值和预测值之间的差值。然后我们按降序对 Alpha 值进行排序,为这些排序的值分配 rank — 所以现在我们有了校准表。一旦我们得到模型预测,我们还需要定义误差率(显著性水平)以进行共形预测。错误率将根据更接近提供的误差率(显著性水平)的排名分数来定义 Alpha。如图 3 所示,根据误差率(显著性水平)值,Alpha 是不同的,因此下限 (LB) 和上限 (UB) 也不同。如图 3 所示,我们有两个显著性水平值 0.1(红色)和 0.3(蓝色)。这些值定义了我们将采用哪些 Alpha 值来定义预测区间。很容易看出,如果我们要求更少的误差,区间会变得更宽,因为我们采用更大的 Alpha 值,反之亦然,如果我们对误差的容忍度更高,区间就会更窄。最终,我们将始终获得所需的错误数,即超出预测范围的预测值的比例。
在这里插入图片描述

五、结束语

当然,为了获得最佳预测,优化误差率 (显著性水平) 是值得的。这样,可以使用特殊指标(分类和回归不同)来估计共形预测,这些指标将在即将发布的博客文章中介绍。好消息是,当您已经拥有经过训练的模型和校准表时,优化错误率不会产生任何成本。

另一种有助于提高共形预测稳健性的简单技术是训练多个模型以及多个校准集。接下来,您可以获得与获得的模型和校准集对数相同的测试或未标记数据集的预测数量。然后,您可以按照相同的过程使用模型对和校准数据集获得保形预测。最后,您可以使用每个样本的 median 函数聚合预测。后一种方法可以很容易地与交叉验证相结合,称为 Mondrian 交叉共形预测。

同时,共形预测有一个很强的要求:样本必须是 IID(独立且同分布)——这是一般机器学习问题的相当标准的要求。对于显然不是 IID 的时间序列数据,如果需要,仍然可以应用共形预测,因为它支持可交换分布属性(您可以在 Vovk 等人的原始手稿中了解更多信息)。此外,保形预测与数据集和模型无关——您可以使用任何模型,您只需要定义什么是您的一致性/非一致性度量。

最后要注意的是,共形预测具有条件覆盖率,可保证预测集(用于分类)或区间(用于回归)根据预测的难度进行调整。这基本上意味着简单样本将具有较小的预测集或区间,而困难样本将具有较大的预测集或区间。这也是对数据的非常有用的见解,可帮助您了解模型在哪些情况下更容易出错。如果您想了解更多信息,建议您观看这些视频,这些视频对此功能进行了详尽的解释。

六、结论

这是对没有数学的共形预测的一个非常温和的介绍。在本文中,我只想描述为了将共形预测用于分类和回归问题而需要应用的算法。如果你对它背后的理论和数学感兴趣,我鼓励你看一些科学论文。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

无水先生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值