线性回归
Linear Regression——线性回归
是什么?
是机器学习中有监督机器学习下的一种简单的回归算法。
分为一元线性回归(简单线性回归)和多元线性回归,其中一元线性回归是多元线性回归的一种特殊情况,我们主要讨论多元线性回归
做什么?
回归问题关注的是一个因变量和一个或多个自变量的关系,根据已知的自变量来预测因变量.
如果因变量和自变量之间的关系满足线性关系(自变量的最高幂为一次),那么我们可以用线性回归模型来拟合因变量与自变量之间的关系.
怎么做?
简单线性回归的公式如下:
y ^ = a x + b \hat y=ax+b y^=ax+b
多元线性回归的公式如下:
y ^ = θ T x \hat y= \theta^T x y^=θTx
上式中的 θ \theta θ为系数矩阵,x为单个多元样本.
由训练集中的样本数据来求得系数矩阵,求解的结果就是线性回归模型,预测样本带入x就能获得预测值 y ^ \hat y y^,求解系数矩阵的具体公式接下来会推导.
推导过程
推导总似然函数
假设线性回归公式为 y ^ = θ x \hat y= \theta x y^=θx.
真实值y与预测值 y ^ \hat y y^之间必然有误差 ϵ = y ^ − y \epsilon=\hat y-y ϵ=y^−y,按照中心极限定理(见知识储备),我们可以假定 ϵ \epsilon ϵ服从正态分布,正态分布的概率密度公式为:
ρ ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 \rho (x)=\frac {1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} ρ(x)=σ2π1e−2σ2(x−μ)2
为了模型的准确性,我们希望 ϵ \epsilon ϵ的值越小越好,所以正态分布的期望 μ \mu μ为0.概率函数需要由概率密度函数求积分,计算太复杂,但是概率函数和概率密度函数呈正相关,当概率密度函数求得最大值时概率函数也在此时能得到最大值,因此之后会用概率密度函数代替概率函数做计算.
我们就得到了单个样本的误差似然函数( μ = 0 , σ \mu=0,\sigma μ=0,σ为某个定值):
ρ ( ϵ ) = 1 σ 2 π e − ( ϵ − 0 ) 2 2 σ 2 \rho (\epsilon)=\frac {1}{\sigma\sqrt{2\pi}}e^{-\frac{(\epsilon-0)^2}{2\sigma^2}} ρ(ϵ)=σ2π1e−2σ2(ϵ−0)2
而一组样本的误差总似然函数即为:
L θ ( ϵ 1 , ⋯ , ϵ m ) = f ( ϵ 1 , ⋯ , ϵ m ∣ μ , σ 2 ) L_\theta(\epsilon_1,\cdots,\epsilon_m)=f(\epsilon_1,\cdots,\epsilon_m|\mu,\sigma^2) Lθ(ϵ1,⋯,ϵm)=f(ϵ1,⋯,ϵm∣μ,σ2)
因为我们假定了 ϵ \epsilon ϵ服从正态分布,也就是说样本之间互相独立,所以我们可以把上式写成连乘的形式:
f ( ϵ 1 , ⋯ , ϵ m ∣ μ , σ 2 ) = f ( ϵ 1 ∣ μ , σ 2 ) ∗ ⋯ ∗ f ( ϵ m ∣ μ , σ 2 ) f(\epsilon_1,\cdots,\epsilon_m|\mu,\sigma^2)=f(\epsilon_1|\mu,\sigma^2)*\cdots*f(\epsilon_m|\mu,\sigma^2) f(ϵ1,⋯,ϵm∣μ,σ2)=f(ϵ1∣μ,σ2)∗⋯∗f(ϵm∣μ,σ2)
所以
L θ ( ϵ 1 , ⋯ , ϵ m ) = ∏ i = 1 m f ( ϵ i ∣ μ , σ 2 ) = ∏ i = 1 m 1 σ 2 π e − ( ϵ i − 0 ) 2 2 σ 2 L_\theta(\epsilon_1,\cdots,\epsilon_m)=\prod^m_{i=1}f(\epsilon_i|\mu,\sigma^2)=\prod^m_{i=1}\frac {1}{\sigma\sqrt{2\pi}}e^{-\frac{(\epsilon_i-0)^2}{2\sigma^2}} Lθ(ϵ1,⋯,ϵm)=i=1∏mf(ϵi∣μ,σ2)=i=1∏m