引言
斯坦悖论(stein’s paradox)是统计学中最令人震惊的结论之一,严重挑战了我们关于最优估计的传统观念,因此被称之为悖论.简单地说,根据斯坦悖论,若要估计高维高斯随机变量的均值,最好是从所有样本中估计三个或三个以上变量的均值,而不是分别单独进行估计,即使这些高斯分布是相互独立的.
这意味着,在某些情况下,极大似然估计(MLE)未必是最好的,它并也不是一种估计的"绝对准则"(Absolute criterion).实际上,极大似然估计经常会罔顾事实,产生较大的误差.此时根据斯坦悖论,将极大似然估计的结果向平均水平收缩,能够有效的减小估计误差,这一点具有非常重要的现实意义.
斯坦悖论的内容
假设我们要根据一个样本估计一组正态分布的均值,可以分为多种情况:
(1)假设高斯分布方差为1,均值未知.
从这个分布中抽取一个样本,由于没有更多的信息,所以只能猜测样本值就是均值.这是一个"好的猜测",它是偏的.
(2)假设分布是二维高斯分布,协方差矩阵是单位阵.从这个分布中抽取一个样本,再估计它的均值,应该怎么做呢?
依然可以简单的将抽到的样本值作为均值.
(3)假设高斯分布是在三维空间中,同样抽取一个样本来估计均值,样本值还是一个"好的估计"吗?
斯坦悖论告诉我们,如果在三维和更高维度上估计分布的均值,更好的估计是这样的:
μ
^
=
ReLU
(
1
−
D
−
2
∣
x
∣
2
)
x
\hat{\mu}=\textrm{ReLU}\left(1-\frac{D-2}{|\bold x|^2}\right)\bold x
μ^=ReLU(1−∣x∣2D−2)x
这就是所谓的James-Stein估计(James-Stein estimator).其中,D是高斯分布的维度,
x
\bold x
x是从该分布中抽取的样本,
x
\bold x
x前面的因子通常称为收缩因子(shrinkage factor),因为这个因子取值在0和1之间.
在一维和二维的情况下,采用样本值作为对均值的估计是最佳的,但在三维和更高维维的情况,这种简单估计就被James-Stein估计所取代.很难想象,在对一个样本进行估计的时候,为什么要把另一个样本牵扯进来,并对该样本产生影响,即使这两个样本看上去没有任何关联.这种令人惊讶的结果导致斯坦悖论经常被误解或过度简化,甚至有人声称据此可以"用任何东西估计任何东西",譬如可以用中国茶叶的价格预测墨尔本的降雨概率.
斯坦悖论的解释
Efron在《Stein Paradox in statistics》一文中使用经验贝叶斯(Empirical Bayes )提出了一种优美的解释,其中的一个关键假设就是我们所关心的样本之间往往具有某种联系.这里的"某种联系"意味着样本是相似的,水平相近的.由于样本之间具有的这种内在联系,因此可以利用其它样本对当前样本的估计进行修正,这就是斯坦估计背后的深层含义.
从这个角度来看,在极大似然估计不可信的情况下,如果借助其它样本的信息/经验对当前样本的估计进行修正,Stein估计将极大似然估计的结果向平均水平收缩,能够显著减少估计误差.
什么是好的估计
我们实际上在做的是“参数估计”,也就是基于分布的样本,推断分布的一些潜在参数。为了量化我们的估计的优良程度,可以选择一个称为“损失函数”的函数。均方误差是一个常见的选择,如我们估计平均值是
μ
^
\hat\mu
μ^,而平均值的真实值是
μ
\mu
μ,那么损失是:
L
=
∣
μ
^
−
μ
∣
2
\mathcal{L}=|\hat\mu-\mu|^2
L=∣μ^−μ∣2
现在我们使用估计器(estimator)来从样本
x
\bold x
x获取估计值
μ
^
\hat \mu
μ^。很显然,估计器有无数多种选择,那么怎么评估这些估计的优劣呢?
统计学家为此使用了风险的概念,风险就是损失函数的期望,它是选择的估计和参数本身真实值的函数。
回到一维高斯分布均值估计的例子,最初的估计是 μ ^ = x \hat\mu= x μ^=x,这是无偏的.另一个估计是 μ ^ \hat\mu μ^=7,也就是不管样本值是多少,我们都认为均值是7,这看上去似乎很傻。但是,如果均值实际上非常接近7,在平均意义上而言,这将是更好的估计。因此可以说,一个估计对参数的某些值是好的,而另一个估计可能对其他值更好。
对于前一种估计,风险
R
x
=
E
[
(
x
−
μ
)
2
]
=
1
2
π
∫
(
x
−
μ
)
2
e
−
(
x
−
μ
)
2
/
2
d
x
=
1.
\begin{align} \mathcal{R}_{x} & = \mathbb{E} \left[ \left(x - \mu \right)^2 \right] \nonumber \\ & = \frac{1}{\sqrt{2\pi}} \int (x - \mu)^2 e^{-(x-\mu)^2 / 2} \, dx \nonumber\\ & = 1. \end{align}
Rx=E[(x−μ)2]=2π1∫(x−μ)2e−(x−μ)2/2dx=1.
对于后一种简单估计,风险
R
dumb
=
E
[
(
7
−
μ
)
2
]
=
1
2
π
∫
(
7
−
μ
)
2
e
−
(
x
−
μ
)
2
/
2
d
x
=
(
7
−
μ
)
2
.
\begin{align} \mathcal{R}_{\textrm{dumb}} & = \mathbb{E} \left[ \left(7 - \mu\right)^2 \right] \nonumber \\ & = \frac{1}{\sqrt{2\pi}}\int (7 - \mu)^2 e^{-(x - \mu)^2 / 2} \, dx \nonumber \\ & = (7 - \mu)^2. \end{align}
Rdumb=E[(7−μ)2]=2π1∫(7−μ)2e−(x−μ)2/2dx=(7−μ)2.
可见,只要真正的均值
μ
\mu
μ恰好落在区间(6,8)之内,这个简单估计实际上风险更低。
这是一个很简单的例子。但实际上由于我们不知道真实的均值,通常不能说一个估计优于另一个估计。但如果一个估计对于参数的任何可能的取值都具有更低的风险,那么这个估计肯定比另一个要好。
斯坦悖论指出,对于三维和更高维的情况下,将样本值 x \bold x x作为均值的朴素估计是不可接受的,因为James-Stein估计的风险对于任何可能的均值都更低。
James-Stein估计
与朴素估计方式相比,James-Stein估计多了收缩因子:
ReLU
(
1
−
D
−
2
∣
x
∣
2
)
\textrm{ReLU}\left(1 - \frac{D - 2}{| \textbf{x}|^2} \right)
ReLU(1−∣x∣2D−2)
ReLU函数只取其参数的最大值和0,因此这个收缩因子是0到1之间的某个数, ∣ x ∣ |\bold x| ∣x∣越小,向原点收缩越多.
如果样本 ∣ x ∣ |\bold x| ∣x∣很大,收缩因子趋近于1,基本不会收缩,采用原朴素估计;
如果样本 ∣ x ∣ |\bold x| ∣x∣很小,收缩因子将等于0,即当样本足够小时,直接猜测样本为0即可;
在其他情况下,收缩因子介于0到1之间,原朴素估计向原点收缩。
在其他条件相同的情况下,高维空间要比低维空间收缩的更多。
高维空间中的样本
高维空间存在一个反直觉的性质:来自对称高维分布的样本很可能比均值更远离原点。具体而言,对于各向同性的D维高斯分布,到样本的平均距离与到均值的距离的差以约
D
\sqrt{D}
D增长。
如上图所示,图中阴影面积小于总面积的一半,因此我们不太可能选择比平均值更接近原点的样本,这是反直觉的.在二维空间中,圆圈中相当大一部分是阴影,但随着维数的增加,阴影区域所占比例呈指数下降。一旦维数相对大时,我们就不太可能在这个阴影区域中采样到一个点。
要注意的是,均值离原点越远,这种影响就越小:可以想象,当圆离原点越远,阴影部分的面积占比就约接近1/2。因此,只要均值足够大,即使在高维空间中,采样比均值更接近原点的概率也可以接近1/2。这与James-stein估计的结果是一致的,因为样本 ∣ x ∣ |\bold x| ∣x∣或者说均值变得非常大时,James-Stein估计的结果非常接近朴素估计 ∣ x ∣ |\bold x| ∣x∣。
将估计朝原点收缩,能够纠正样本比均值更远离原点的趋势,从而降低了朴素估计的总体风险。
偏差-方差权衡
James-Stein估计也可以从偏差-方差权衡的角度来理解。偏差-方差权衡指出,估计的风险可以分解为两个部分:一个常数“偏差”项,反映估计的平均值与真实值的距离,一个无偏的“方差”项,代表样本的随机性。
朴素估计是无偏的,但具有高方差。在高维空间中,各向同性高斯分布的样本包含巨大的体积,因此朴素估计是无偏的,但它具有非常高的方差。斯坦悖论看起来不自然的一个原因是我们倾向于混淆无偏估计和最小化风险的估计。
James-Stein估计所做的则是将总体分布向原点缩放,从而缩小分布的体积,减小其方差,代价是引入了一点点偏差。从总体效果来看,估计虽然有了偏差,但总体风险降低了。 简单地将估计朝原点做shrinkage就能提升预测精度,统计学习中的处理高维问题的这一正则化方法,其思想根源就是来自这里.
参考资料
- 《Stein estimator: 逝去的悖论》
- https://joe-antognini.github.io/machine-learning/steins-paradox
- https://zhuanlan.zhihu.com/p/655464162