线性回归的正规方程推导
除了梯度下降法,我们还可以用正规方程法来求线性回归模型。
1. 正规方程的推导
设样本数量为 m m m,每个样本有 n n n个特征,线性回归模型 h θ ( x ) h_\theta(x) hθ(x)为:
h θ ( x ) = θ 0 x 0 + θ 1 x 1 + θ 2 x 2 + ⋯ + θ n x n = θ T x h_\theta(x) = \theta_0x_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n=\theta^Tx hθ(x)=θ0x0+θ1x1+θ2x2+⋯+θnxn=θTx
其中每个样本数据的 x 0 x_0 x0恒为1。
第 i i i个样本数据特征变量记为 x ( i ) x^{(i)} x(i),目标变量为 y ( i ) y^{(i)} y(i), h θ ( x ( i ) ) h_\theta(x^{(i)}) hθ(x(i))为第 i i i个样本数据的模型预测值, ϵ ( i ) \epsilon^{(i)} ϵ(i)为观察值和预测值之间的差(残差),则
ϵ ( i ) = h θ ( x ( i ) ) − y ( i ) = θ T x ( i ) − y ( i ) \epsilon^{(i)}= h_\theta(x^{(i)})-y^{(i)}=\theta^Tx^{(i)}-y^{(i)} ϵ(i)=hθ(x(i))−y(i)=θTx(i)−y(i)
ϵ ( i ) \epsilon^{(i)} ϵ(i)一般服从均值为0的正态分布,设这个正态分布的方差为 σ 2 \sigma^2 σ2,则 ϵ \epsilon ϵ的概率密度函数 f ( ϵ ; θ T ) f(\epsilon;\theta^T) f(ϵ;θT)为
f ( ϵ ; θ T ) = 1 2 π σ e x p ( − ϵ 2 2 σ 2 ) f(\epsilon;\theta^T)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{\epsilon^2}{2\sigma^2}) f(ϵ;θT)=2πσ1exp(−2σ2ϵ2)
这些残差的似然函数为
L ( θ ) = ∏ i = 1 m f ( ϵ ( i ) ; θ T ) = ∏ i = 1 m 1 2 π