我们有n个样本 xi,i∈{ 1,2,⋯,n} ,并且我们知道每个样本对应的输出值 yi,i∈{ 1,2,⋯,n} 。我们希望能够
Find f(⋅) s.t. yi=f(xi)
这样每当有一个新的观测
x
到来,我们便可通过函数
能够在已有所有样本上,使 yi 严格等于 f(xi) 的函数 f(⋅) 的预测效果并不一定那么好。因为
- xi 中很可能未包含所有影响 yi 值的特征。
- xi 观测到的值很可能有观测误差。
所以,我们转而
Find f(⋅) s.t. yi=f(xi)+εi
其中
εi
是随机噪声。
多元线性回归模型就是在做一些假设基础上,利用所有样本数据 xi 来找到一个最优的 f(⋅) 。
假设
- yi=θTxi+εi ,也就是要找到最优的 f(⋅) ,只要确定最优的 θ 就好了。
- 噪声 εi∼N(0,δ2) 。
- εi 独立同分布。
从假设2中我们可得到
yi|xi;θ∼N(θTxi,δ2)
又根据假设3,我们可以使用最大似然法确定最优的 θ :
maxmize L(θ)=∏12π−−√σe(−(