简介
保形预测是一种构造在有限样本中获得有效覆盖的预测区间的技术,无需进行分布假设。尽管有这种吸引力,但现有的保形方法可能是不必要的保守,因为它们在输入空间中形成恒定或弱变化长度的区间。本文提出了一种完全适应异方差的新方法。它将保形预测与经典分位数回归相结合,继承了两者的优点。我们建立了有效覆盖的理论保证,并辅以对流行回归数据集的广泛实验。我们比较了保形分位数回归与其他保形方法的效率,表明我们的方法倾向于产生更短的区间。
论文:Conformalized Quantile Regression
作者:Yaniv Romano, Evan Patterson
关注微信公众号,获取更多资讯
1 介绍
在回归建模的许多应用中,重要的是不仅要准确预测,而且要量化预测的准确性。在涉及高风险决策的情况下尤其如此,例如估计药物的功效或信用违约的风险。预测中的不确定性可以用预测区间来量化,给出响应变量高概率所在的下界和上界。一个理想的生成预测区间的过程应该满足两个性质。首先,它应该在有限的样本中提供有效的覆盖,而不是做出强的分布假设,比如高斯性。其次,在输入空间的每个点上,它的间隔应该尽可能短,这样预测就会有信息量。当数据为异方差时,想得到有效但较短的预测区间需要根据预测空间中每个查询点的局部可变性来调整区间的长度。本文介绍了一种方法,该方法在这两个标准上都表现良好,既不受分布影响,又能适应异方差。
我们的工作很大程度上受到保形预测的启发,保形预测是一种构造预测区间的通用方法[1-6]。保形预测具有提供非渐近、无分布覆盖保证的优点。主要思想是在训练样本上拟合一个回归模型,然后在一个保留验证集上使用残差来量化未来预测的不确定性。最近的许多研究都研究了底层模型对预测区间长度的影响,并尝试构建局部长度变化的区间[6-16]。然而,如[6,15,17]所述,现有的方法产生固定长度或长度仅弱依赖于预测因子的保形区间。
到目前为止,在适形预测中,主要的推理焦点-条件均值估计-与最终的推理目标-预测区间估计之间存在不匹配。当需要一个区间时,估计平均值会损失统计效率。分位数回归提供了一种更直接的区间估计方法[18]。取任意一种分位数回归算法,即从数据中估计条件分位数函数。要获得名义覆盖率为90%的预测区间,只需在5%和95%的水平上拟合条件分位数函数,并形成相应的区间。即使对于高度异方差的数据,该方法也已被证明能够适应局部变化[19-25]。然而,在一定的正则性和渐近条件下,估计区间的有效性仅对特定模型保证[22-24]。
在这项工作中,我们将保形预测与分位数回归相结合。由此产生的方法,我们称之为保形分位数回归(CQR),既继承了保形预测的有限样本、无分布有效性,又继承了分位数回归的统计效率一方面,CQR具有灵活性,它可以包裹任何分位数回归的算法,包括随机森林和深度神经网络[26-29]。另一方面,CQR的一个关键优势是它对误覆盖率的严格控制,独立于底层回归算法。
提纲式总结
假设我们有 n n n训练样本 { ( X i , Y i ) } i = 1 n \{(X_i, Y_i)\}_{i=1}^n {(Xi,Yi)}i=1n,我们现在必须预测 Y n + 1 Y_{n+1} Yn+1在测试点 X n + 1 X_{n+1} Xn+1的未知值。我们假设所有的样本 { ( X i , Y i ) } i = 1 n + 1 \{(X_i,Y_i)\}_{i=1}^{n+1} {(Xi,Yi)}i=1n+1都是互换绘制的——例如,它们可以从特征向量 X ∈ R p X \in \R^p X∈Rp和响应变量 Y ∈ R Y\in \R Y∈R上的任意联合分布 P X Y P_{XY} PXY中绘制。我们的目标是构建一个可能包含未知响应 Y n + 1 Y_{n+1} Yn+1的无边际分布预测区间 C ( X n + 1 ) ⊆ R C(X_{n+1}) \subseteq \R C(Xn+1)⊆R。也就是说,给定一个期望的误覆盖率 α \alpha α,我们问
P { Y n + 1 ∈ C ( X n + 1 ) } ≥ 1 − α P \{Y_{n+1} \in C(X_{n+1}) \} \geq 1-\alpha P{
Yn+1∈C(Xn+1)}≥1−α
对于任意联合分布 P X Y P_{XY} PXY和任意样本量 n n n。在这个表述中,概率是边际的,它是取所有样本 { ( X i , Y i ) } i = 1 n + 1 \{(X_i, Y_i)\}_{i=1}^{n+1} {(Xi,Yi)}i=1n+1。
为了实现这一点,我们建立在共形预测方法的基础上[2,3,8]。我们首先将训练数据分成两个不相交的子集,一个适当的训练集和一个校准集我们在适当的训练集上拟合两个分位数回归量,以获得预测区间下界和上界的初始估计,如第2节所述。然后,使用校准集,我们对该预测区间进行整合,必要时进行校正。与原始区间不同,无论分位数回归估计器的选择或精度如何,合规化预测区间都能保证满足覆盖要求(1)。我们将在第4节中证明这一点。
我们的方法不同于第3节中提到的适形预测的标准方法[3,15],因为我们使用条件分位数回归校准预测区间,而标准方法仅使用经典的条件均值回归。结果是我们的区间能适应异方差,而标准区间则不能。通过与其他方法的误覆盖率和平均间隔长度进行比较,评价了该框架的统计效率。我们在第5节中回顾了现有的最先进的保形预测方案,并将它们与第6节中的方法进行了比较。基于11个数据集的广泛实验,我们得出结论,共形分位数回归比竞争方法产生更短的间隔。
分位数回归
条件分位数回归koenker1978regression的目的是估计一个给定的分位数,如 Y Y Y的中位数,条件在 X X X上。回想一下 Y Y Y给定 X = x X=x X=x的条件分布函数是
F ( y ∣ X = x ) : = P { Y ≤ y ∣ X = x } , F(y \mid X=x) := P \{Y\leq y \mid X=x\}, F(y∣X=x):=P{
Y≤y∣X=x},
第α个条件分位数函数是
q α ( x ) : = inf { y ∈ R : F ( y ∣ X = x ) ≥ α } . q_{\alpha}(x) := \inf \{y \in \R : F(y \mid X=x) \geq \alpha\}. qα(x):=inf{
y∈R:F(y∣X=x)≥α}.
将上下分位数固定为 α l o = α / 2 \alpha_{lo}=\alpha/2 αlo=α/2和 α h i = 1 − α / 2 \alpha_{hi} = 1 - \alpha /2 αhi=1−α/2。给定上下条件分位数函数 q α ( x ) q_{\alpha}(x) qα(x)和 q α ( x ) q_{\alpha}(x) qα(x)对,在给定 x = x x =x x=x的情况下,我们得到 Y Y Y的条件预测区间,错覆盖率 α \alpha α为
C ( x ) = [ q α l o ( x ) , q α h i ( x ) ] . C(x) = [q_{\alpha_{lo}}(x),\ q_{\alpha_{hi}}(x)]. C(x)=[qαlo(x), qαhi(x)].
通过构造,这个区间满足
P { Y ∈ C ( X ) ∣ X = x } ≥ 1 − α . P\{Y \in C(X) | X=x \} \geq 1 - \alpha. P{
Y∈C(X)∣X=x}≥1−α.
注意,区间 C ( X ) C(X) C(X)的长度可以根据 X X X的值发生很大的变化。预测Y的不确定性自然反映在区间的长度上。在实践中,我们无法知道这个理想的预测区间,但我们可以尝试从数据中估计它。
从数据中估计分位数
经典回归分析通过最小化 n n n训练点的残差平方和来估计给定特征 X n + 1 = x X_{n+1}{=}x Xn+1=x的测试响应 Y n + 1 Y_{n+1} Yn+1的条件均值:
μ ^ ( x ) = μ ( x ; θ ^ ) , θ ^ = a r g m i n θ 1 n ∑ i = 1 n ( Y i − μ ( X i ; θ ) ) 2 + R ( θ ) . \hat{\mu}(x) = \mu(x; \hat\theta), \qquad \hat\theta = \underset{\theta}{\mathrm{argmin}} \ \frac{1}{n} \sum_{i=1}^n (Y_i - \mu(X_i ; \theta))^2 + \mathcal{R}(\theta). μ^(x)=μ(x;θ^),θ^=θargmin n1i=1∑n(Yi−μ(Xi;θ))2+R(θ).
这里 θ \theta θ是回归模型的参数, μ ( x ; θ ) \mu(x; \theta) μ(x;θ)是回归函数, R \mathcal{R} R是一个潜在的正则化器。
类似地,分位数回归估计 Y n + 1 Y_{n+1}