Stanford Online-统计学习-ISLR-Ch2-Statistical Learning

本文深入探讨了统计学习中的回归函数概念,解释了如何通过数学期望找到最合理的预测值,并讨论了一维和多维情况下的模型建立。接着介绍了最近邻方法,但指出在高维空间中可能会遭遇“维灾难”。最后,提出了结构化模型作为解决这一问题的方案,并简要提及了偏差-方差权衡在模型选择中的重要性。
摘要由CSDN通过智能技术生成

1. Regression Function

假设要拟合的数据是一维的,即 x x 的分布如下图所示:

看图中 x=4 ,发现对应的 y 有好多不同的取值,那么当有一个新的数据 x=4 进来了,应该给它一个什么值呢?最合理当然是给它一个 x=4 的时候所有 y 的平均值咯,这样谁都不得罪。说的再准确一些,叫做“数学期望”,因为平均值是在均匀分布时的“数学期望”。于是定义下面这么个模型,这个式子就是regression function

f(X)=E[Y|X=4]

刚刚说“最合理是给它一个 x=4 的时候所有 y 的平均值”,这里的“合理”意味着,最小二乘方的数学期望要最小,即:

minE[(Yg(x))2|X=x]

而使得这个数学期望最小的解就是上面的 f(X)=E[Y|X=4]

上面讲了 X 是一维的,如果 X 是多维的,即 X=(X1,X2,X3,...,Xp) ,则模型表示如下:

f(X)=E[Y|X1=x1,X2=x2,...,Xp=xp]

这里需要特别注意的是, f(X) 是对世界上所有的 X 建模得到的模型,但是我们是不可能得到世界上所有的 X 的,我们能够得到的数据成为“observation data”,即可以观测到的数据,比如,训练数据集和测试数据集就是可以观测到的数据。如果我们用训练数据集近似世界上所有的数据来建模,就会得到一个模型 f(X)^ ,那么, f(X)^ 就是对 f(X) 的近似。于是,我们有下面这几个关系:

Y=f(X)
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值