线性回归损失函数推导(均方误差角度,概率分布角度) 正规方程法 梯度下降法求解线性回归
从均方误差的角度推导线性回归的损失函数
线性回归是一种最基本的机器学习算法。基本形式为:
y ^ = θ 0 x 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 3 + … … = θ T x \hat{y} = \theta_0x_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+……=\mathbf{\theta^Tx} y^=θ0x0+θ1x1+θ2x2+θ3x3+……=θTx
其中: θ = [ θ 0 , θ 1 , θ 2 , . . . θ n ] T \mathbf{\theta} = [\theta_0,\theta_1,\theta_2,...\theta_n]^T θ=[θ0,θ1,θ2,...θn]T, x = [ 1 , x 1 , x 2 , x 3 . . . x n ] T \mathbf{x}=[1,x_1,x_2,x_3...x_n]^T x=[1,x1,x2,x3...xn]T, y ^ \hat{y} y^是预测值。
对于回归问题,我们采用均方误差作为模型的评估标准。从向量的角度来计算:
J = 1 2 m ∣ ∣ X θ − y ∣ ∣ 2 2 = 1 2 m ( X θ − y ) T ( X θ − y ) = 1 2 m ( θ T X T − y T ) ( X θ − y ) = 1 2 m ( θ T X T X θ − θ T X T y − y T X θ + y T y ) = 1 2 m ( θ T X T X θ − 2 y T X θ + y T y ) J = \frac{1}{2m}||\mathbf{X\theta-y}||_2^2 = \frac{1}{2m}(\mathbf{X\theta-y})^T(\mathbf{X\theta-y})=\frac{1}{2m}(\mathbf{\theta^TX^T-y^T})(\mathbf{X\theta-y})\\ =\frac{1}{2m}(\mathbf{\theta^TX^TX\theta}-\mathbf{\theta^TX^Ty}-\mathbf{y^TX\theta}+\mathbf{y^Ty})\\ =\frac{1}{2m}(\mathbf{\theta^TX^TX\theta}-2\mathbf{y^TX\theta}+\mathbf{y^Ty}) J=2m1∣∣Xθ−y∣∣22=2m1(Xθ−y)T(Xθ−y)=2m1(θTXT−yT)(Xθ−y)=2m1(</