Stanford Online-统计学习-ISLR-Ch2-Statistical Learning

最新推荐文章于 2021-12-29 12:22:45 发布

LVB10101111

最新推荐文章于 2021-12-29 12:22:45 发布

阅读量731

点赞数 1

分类专栏：统计学习基础(ELS) 文章标签：统计学机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013515273/article/details/78502777

版权

本文深入探讨了统计学习中的回归函数概念，解释了如何通过数学期望找到最合理的预测值，并讨论了一维和多维情况下的模型建立。接着介绍了最近邻方法，但指出在高维空间中可能会遭遇“维灾难”。最后，提出了结构化模型作为解决这一问题的方案，并简要提及了偏差-方差权衡在模型选择中的重要性。

摘要由CSDN通过智能技术生成

1. Regression Function

假设要拟合的数据是一维的，即 $x \in \mathbb{R}$ ， $x$ 的分布如下图所示：

看图中 $x=4$ ，发现对应的 $y$ 有好多不同的取值，那么当有一个新的数据 $x=4$ 进来了，应该给它一个什么值呢？最合理当然是给它一个 $x=4$ 的时候所有 $y$ 的平均值咯，这样谁都不得罪。说的再准确一些，叫做“数学期望”，因为平均值是在均匀分布时的“数学期望”。于是定义下面这么个模型，这个式子就是regression function：

f (X) = E [Y | X = 4]

$f(X) = E[Y|X=4]$

刚刚说“最合理是给它一个 $x=4$ 的时候所有 $y$ 的平均值”，这里的“合理”意味着，最小二乘方的数学期望要最小，即：

min E [(Y - g (x)) 2 | X = x]

$\min E[{(Y-g(x))}^2 | X = x]$

而使得这个数学期望最小的解就是上面的 $f(X) = E[Y|X=4]$

上面讲了 $X$ 是一维的，如果 $X$ 是多维的，即 $X =(X_1,X_2,X_3,...,X_p)$ ，则模型表示如下：

f (X) = E [Y | X 1 = x 1, X 2 = x 2, . . ., X p = x p]

$f(X) = E[Y|X_1 = x_1, X_2 = x_2, ..., X_p =x_p]$

这里需要特别注意的是， $f(X)$ 是对世界上所有的 $X$ 建模得到的模型，但是我们是不可能得到世界上所有的 $X$ 的，我们能够得到的数据成为“observation data”，即可以观测到的数据，比如，训练数据集和测试数据集就是可以观测到的数据。如果我们用训练数据集近似世界上所有的数据来建模，就会得到一个模型 $\hat{f(X)}$ ，那么， $\hat{f(X)}$ 就是对 $f(X)$ 的近似。于是，我们有下面这几个关系：

Y = f (X)

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Stanford Online-统计学习-ISLR-Ch2-Statistical Learning

Regression Function, 维灾难，贝叶斯误差
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。