斯坦福大学统计学习笔记（一）_斯坦福统计学笔记-CSDN博客

2.1回归模型的介绍

2.1.1 回归函数

假设要拟合的数据是一维的，即x∈Rx∈R，xx的分布如下图所示：
在这里插入图片描述

看图中x=4，发现对应的y有好多不同的取值，那么当有一个新的数据x=4进来了，应该给它一个什么值呢？最合理当然是给它一个x=4x=4的时候所有y的平均值咯，这样谁都不得罪。说的再准确一些，叫做“数学期望”，因为平均值是在均匀分布时的“数学期望”。于是定义下面这么个模型，这个式子就是regression function：f(X)=E[Y|X=4]

刚刚说“最合理是给它一个x=4的时候所有y的平均值”，这里的“合理”意味着，最小二乘方的数学期望要最小，即：
minE[(Y−g(x))2|X=x]

而使得这个数学期望最小的解就是上面的 f(X)=E[Y|X=4]
上面讲了X是一维的，如果X是多维的，即X=(X1,X2,X3,…,Xp)，则模型表示如下：

f(X)=E[Y|X1=x1,X2=x2,…,Xp=xp]

这里需要特别注意的是，f(X)是对世界上所有的X建模得到的模型，但是我们是不可能得到世界上所有的X的，我们能够得到的数据成为“observation data”，即可以观测到的数据，比如，训练数据集和测试数据集就是可以观测到的数据。如果我们用训练数据集近似世界上所有的数据来建模，就会得到一个模型f(X)^{，那么，f(X)}就是对f(X)的近似。于是，我们有下面这几个关系：

Y=f(X)+ϵ1

f(X)^=f(X)+ϵ2

即使是对世界上所有的数据进行建模，建立出来的模型也不可能是完全准确的，肯定是会存在误差ϵ1的，这是不可避免的，我们是没有办法去消除这个误差的。而对f(X)f(X)近似过程中存在的误差ϵ2是我们要尽可能减小的。换句话说，我们希望我们在“观测数据”上建立的模型f(X)^能够尽可能地近似于在“世界上所有数据”上建立的模型f(X)。

OK! 终于弄清楚了这两个f之间的关系。接下来看看Y和f(X)^之间的最小二乘方误差的数学期望究竟是什么：

E[(Y−f^{(X))2|X=x]=[f(x)−f}(X)]2−Var(ϵ1)=ϵ22−Var(ϵ1)

又重复到上一段讲的，因为ϵ1是无法减小的，为了让最小二乘方误差的数学期望减小的唯一可行办法就是减小ϵ2，即让“观测数据”上建立的模型f(X)^尽可能地近似于在“世界上所有数据”上建立的模型f(X)f(X)。

2.1.2局部均值

因为按照上面所讲的方法去建模，我们取的X的值肯定是离散的，所以不可能遍布所有可能的取值，那对于那些没有被取到的值，只能把它们近似到临近X去。如下图中，两条红色虚线之间的区间就是X=4的领域:
在这里插入图片描述

当一个新的数据X=x的取值落入这个领域N(x)中时，有：

f(x)=E[Y|x∈N(x)]
然后再有平均值来表示数学期望，就有：

f(x)=Ave[Y|x∈N(x)]

维度灾难和结构模型

2.2.1 维灾难

Nearest Neighbor（邻近算法）其实只对低维且数据量大的x才比较有效果。因为在高维空间中，Nearest neighbors之间会相距比较远，而当它们相距很远的时候，又怎么还能被称为是一个邻域呢？所以在高维空间中，对邻域的假设是不准确的了，预测出来的模型自然也不准确了。这一点我们可以从“一维”转到“二维”中清晰地看到，假设下图的邻域取了总数据10%的数据，比如总数据有1000个，那么，下图的邻域中就有100个数据点：

在这里插入图片描述
明显看到，同样是取10%的数据，一维空间上(x1)邻域的范围(两条红色虚线之间的距离)远远小于二维空间上(x1和x2)邻域的范围(红色圆的半径)。所以说，维度越高，拥有相同多数据的邻域的范围也会越大。然后当维度特别大的时候，这个邻域也就不存在了，因为范围大到快接近于边界了。

比如有一个p维的超方体，其边长为1，只要存在一个xj∈(0,0.05)∪(0.95,1)，就认为这个xx属于边界，计算一下边界处的数据量占总数据的比例：
则该超方体中属于非边界的体积为(1−0.05−0.05)p=0.9p (弄不清楚的话，可以先试一下p=2的情况，在一个直角坐标中)，那么属于边界的体积就是1−0.9p，于是比例就是1−0.9p1p。当p=50时，得到边界处的数据量占总数据的1−0.950150=0.955。很明显地，维度越高，数据就越靠近边界，想要取到一定量的数据，邻域的范围就要越大。

2.2.2 结构模型

这个近似模型方法地提出就是为了解决“维灾难”。因为维灾难是因为邻域带来的，只要我们的近似方法中不再出现邻域，维灾难就不会出现。于是Structured Models不再通过邻域取平均的方法来近似数学期望了，而是直接假设f(x)属于某种参数未知的函数，然后通过从观测数据中近似参数的方式来近似f(x)，从而得到f(x)^。

比如说，设f(X)是一个线性函数，有：
f(X)=β0+β1X1+β2X2+…+βpXp
然后从观测数据集中，通过最小化误差二乘方，计算出β0^,…,βp，得到近似模型为：
f^(X)=β0+β1^X1+β2X2+…+βp^Xp
当然可以假设f(X)是其他类型的参数未知的函数。

2 .2.3 thin-plate splines 薄板样条插值

原函数是一个含有误差的函数
薄板样条插值不含误差
薄板样条插值拟合后不含误差。过拟合

模型的解读能力越低，灵活性越高，反之亦然。如何确定模型的好坏呢？

模型选择和偏差-方差模型

2.3.1 模型选择

在这里插入图片描述
假设我们有一个模型f^(x)和一个训练集Tr，计算其均值平方误差，如MSEtr所示，对于模型和测试集Te，同样计算其均值平方误差，如MSEte所示。
以一维函数拟合为例，如下图所示

左图，黑色曲线是真实值，橘色、绿色、蓝色线条分别是不同灵敏度的拟合模型。右图，红色线条表示测试集的均值平方误差，灰色线条表示训练集的均值平方误差，虚线表示真实值的均值平方误差，即不可避免的误差。
如何评估怎么样的模型的好坏呢？就是计算均值平方误差，误差越小越好。

2.3.2. 权衡偏差-方差

令f(X)^是从训练集中得到的对真实模型f(X)的近似模型，(x0,y0)是测试集中的一条数据，即一个测试观察结果。真实模型是Y=f(X)+e，则有：
E[y0−f^ (x0)]2=Var(f^ (x0))+Bias2(f^(x0))+Var(ϵ1)
如图所示
在这里插入图片描述
其中，E(y0-f^ (x0))^2 表示平均预测误差，偏差（是指个别测定值与测定的平均值之差）Bias(f^ (x0))=E[f^(x0)]−f(x0)
这里需要说明一下，因为这是在模型选择过程中，所以f^ (x0)相当于是一个变量，可以有多种取值，所以会有数学期望E[f^ (x0)]和方差Var(f^ (x0))。而我们要选择的模型就是让E[y0−f^(x0)]2最小的模型。
观察一下E[y0−f^ (x0)]2，因为ϵ不变，所以可以忽略，主要有Bias和Variance来决定，而Bias和Variance是相对的，一个越小，另一个就会越大。一般复杂的模型都会有比较大的Variance，比较小的Bias。如图
在这里插入图片描述
红色表示平均平方误差，绿色表示偏差，黄色表示方差。灵活性越高，方差越高，偏差越小。
所以模型的选择需要平衡好两者，一般通过在测试集上看哪个模型的平均测试误差E[y0−f^(x0)]2最小，就取那一个模型。

分类

2.4.1 分类问题

分类问题针对定性变量。建立一个分类器C(X)
来看懂下面这个图，这个图有点儿难看懂，记录一下：
在这里插入图片描述
黄色的bar代表类别是0，蓝色的bar代表类别是1，x代表特征值，y代表该特征值下类别为1的概率，黑色的曲线是真实模型f(X)，所有数据都是通过Y=f(X)+ϵ1 产生的。比如说，X=5时，得到的数据为1的概率为0.8，则为0的概率就为0.2，于是看到，X=5时，黄色的bar的数量比蓝色的少。

令条件概率pk(x)=Pr(Y=k|=x)pk(x)=Pr(Y=k|=x)，如p0(5)=0.2，p1(5)=0.8

2.4.2 Bayes Optimal Classification

贝叶斯最优分类：
C(x)=j if pj(x)=max{p0(x),p1(x),…,pK(x)}
即求pk(x)，pk(x)取最大值时的k = j，所分的类别个数。式子中的pj(x))都是真实的分布。因为上面的数据是人工通过一个模型生成的，所以才可能知道真实分布。贝叶斯最优分类是使用真实的概率来决定分类规则。
同理，当点数不够多时，我们取该点的一个邻域，计算其条件概率如图。但维度灾难的问题在这里依然存在。
在这里插入图片描述

如何评价分类的好坏？计算分类错误率，公式如图
在这里插入图片描述
统计一个yi != c^(xi) 平均的次数。
举例：

紫色虚线表示贝叶斯决策边界，将紫色小球分为一类，橙色小球分为一类。
当k=10 时，在要求点的附近选区一个邻域，包含例如十个点，在计算当中紫色点的概率和橙色点的概率，从而确定要求的点该分到哪一类。对每一个点都做同样的事情，从而得到一条黑色曲线。
在这里插入图片描述
当k=1时和k=100时

橙色表示测试集的分类错误率，蓝色表示训练集的分类错误率，x轴为1/k。图中，中间平行的黑色虚线就是贝叶斯误差：
贝叶斯最优分类模型在测试集上得到的误差与为贝叶斯误差最接近的时候，即最小可能误差。由此来决定k的取值。

作者：LVB10101111
来源：CSDN
原文：https://blog.csdn.net/u013515273/article/details/78502777
版权声明：本文为博主原创文章，转载请附上博文链接！