1. Regression Function
假设要拟合的数据是一维的,即 x∈ℝ , x 的分布如下图所示:
看图中
x=4
,发现对应的 y 有好多不同的取值,那么当有一个新的数据
x=4
进来了,应该给它一个什么值呢?最合理当然是给它一个 x=4 的时候所有 y 的平均值咯,这样谁都不得罪。说的再准确一些,叫做“数学期望”,因为平均值是在均匀分布时的“数学期望”。于是定义下面这么个模型,这个式子就是regression function:
f(X)=E[Y|X=4]
刚刚说“最合理是给它一个 x=4 的时候所有 y 的平均值”,这里的“合理”意味着,最小二乘方的数学期望要最小,即:
minE[(Y−g(x))2|X=x]
而使得这个数学期望最小的解就是上面的 f(X)=E[Y|X=4]
上面讲了 X 是一维的,如果
X
是多维的,即 X=(X1,X2,X3,...,Xp) ,则模型表示如下:
f(X)=E[Y|X1=x1,X2=x2,...,Xp=xp]
这里需要特别注意的是, f(X) 是对世界上所有的 X 建模得到的模型,但是我们是不可能得到世界上所有的
X
的,我们能够得到的数据成为“observation data”,即可以观测到的数据,比如,训练数据集和测试数据集就是可以观测到的数据。如果我们用训练数据集近似世界上所有的数据来建模,就会得到一个模型 f(X)^ ,那么, f(X)^ 就是对 f(X) 的近似。于是,我们有下面这几个关系:
Y=f(X)