多元线性回归
多元线性回归模型
实际中有很多问题是一个因变量与多个自变量成线性相关,我们可以用一个多元线性回归方程来表示。
为了方便计算,我们将上式写成矩阵形式:
Y = XW
假设自变量维度为N
W为自变量的系数,下标0 - N
X为自变量向量或矩阵,X维度为N,为了能和W0对应,X需要在第一行插入一个全是1的列。
Y为因变量
那么问题就转变成,已知样本X矩阵以及对应的因变量Y的值,求出满足方程的W,一般不存在一个W是整个样本都能满足方程,毕竟现实中的样本有很多噪声。最一般的求解W的方式是最小二乘法。
最小二乘法
我们希望求出的W是最接近线性方程的解的,最接近我们定义为残差平方和最小,残差的公式和残差平方和的公式如下:
上面的公式用最小残差平方和的方式导出的,还有一种思路用最大似然的方式也能推导出和这个一样的公式,首先对模型进行一些假设:
误差等方差不相干假设,即每个样本的误差期望为0,每个样本的误差方差都为相同值假设为σ
误差密度函数为正态分布 e ~ N(0, σ^2)
简单推导如下:
由此利用最大似然原理导出了和最小二乘一样的公式。
最小二乘法求解
二次函数是个凸函数,极值点就是最小点。只需要求导数=0解出W即可。
模拟数据
我们这里用R语言模拟实践一下