机器学习理论笔记(4)

高纬度的局部方法

高维的数据相比于低纬度的来说,多了很多麻烦 。s首先,高维取样中,同样比例的邻域往往需要边长较长的取样。为了方便分析,我们假设是在p维单位超立方体中取样。如图,取一个占整个单位体积比例为 r r 的样本,那么取样边长就是

ep(r)=r1p

这里写图片描述

那么如果样本空间维度是10,取样大小占总样本的1%,那么每一条边的平均取样边长度就是 e10(0.01)0.63 e 10 ( 0.01 ) ≈ 0.63 ,如果取样10%,平均取样边长就是 e10(0.1)0.8 e 10 ( 0.1 ) ≈ 0.8 ,也就是说我们取样10%就需要覆盖每个维度的80%
其次,均匀分布的样本点一般都更加靠近边缘处。例如,从原点到最近数据点的一个中值距离是

d(p,N)=(1121N)1p d ( p , N ) = ( 1 − 1 2 1 N ) 1 p

证明Ex2.3
还有一点就是取样样本密度与 N1p N 1 p 成正比,也就是说单输入问题 N1=100 N 1 = 100 稠密度的样本,对于10输入问题来说,就需要 N10=10010 N 10 = 100 10 的样本容量。构造一个均匀分布的例子,在 [1,1]p [ − 1 , 1 ] p 中取1000个点, Y Y X的真正关系是:
Y=f(X)=e8X Y = f ( X ) = e − 8 ‖ X ‖

检验 x0=0 x 0 = 0 使用1-最近邻规则预测 y0 y 0 ,对1000个样本取均值,考虑 f(0) f ( 0 ) 均方误差:
MSE(x0)=E[f(x0)y^0]2=E[y^0E(y^0)]2+[E(y^0)f(x0)]2=Var(y^0)+Bias2(y^0) M S E ( x 0 ) = E [ f ( x 0 ) − y ^ 0 ] 2 = E [ y ^ 0 − E ( y ^ 0 ) ] 2 + [ E ( y ^ 0 ) − f ( x 0 ) ] 2 = V a r ( y ^ 0 ) + B i a s 2 ( y ^ 0 )

备注:由于 x0 x 0 是确定的,所以 f(x0) f ( x 0 ) 可以看作是常值,上式直接拆开计算比较一下就可以了。上式成为方差偏倚分解。
对于 p=1 p = 1 的情况, x0 x 0 的最近点非常接近0,但是随着维度的增加,最近点逐渐远离。1-NN,MSE,方差,平方偏倚与维度的关系如图。
这里写图片描述

高维函数的复杂性往往也是这样指数增长,要达到低维函数相同的精度,训练的数据大小也是呈指数增长的。
如果我们知道 Y Y X之间是接近线性的:

Y=XTβ+ε Y = X T β + ε

其中 εN(0,σ2) ε ∼ N ( 0 , σ 2 )
我们可以写成这样
y^0=xT0β+i=1Nli(x0)εi y ^ 0 = x 0 T β + ∑ i = 1 N l i ( x 0 ) ε i

这里 li(x0) l i ( x 0 ) 表示 X(XTX)1x0 X ( X T X ) − 1 x 0 的第 i i 个元素,因为这种情况下,最小二乘估计是无偏差的。

EPE(x0)=Ey0|x0E(y0y^0)2=Var(y0|x0)+E[y^0Ey^0]2+[Ey^0x0Tx0Tβ]=Var(y0|x0)+Var(y^0)+Bias2(y^0)=σ2+Ex0T(XTX)1x0σ2+02

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值