一元线性回归总结

线性是一种描述变量之间关系的形容词,通常指变量之间的一次方关系。回归是研究变量之间关系的行为。线性回归字面意思是指对两组及以上的变量对他们的一次方关系进行探究。从简单到难逐步深入来讲,我们首先要对一元线性回归进行研究,之后再对多元、广义、一般的线性回归模型进行探究。

1、一元线性回归

1.1一元线性回归定义

一元线性回归指的是只有两个变量x与y,其中x为自变量,y为因变量。并且y与x成某种线性关系。这样的情况我们称其为一元线性回归问题。其基本形式如下:

\large y_\alpha =a+bx_\alpha +\varepsilon_\alpha                                                                                                                                                   

其中,a、b均为参数项。\large \varepsilon_\alpha为随机变量,因为在两组变量之间,是无法满足严格的线性关系的。所以,此项是补齐线性关系之中误差,也称为扰动项。想要拟合线性关系,两组变量需要满足一一对应关系,相当于形成若干组键值对。但想要线性回归真实可靠还需要注意,所有的扰动项还需要保持同方差、正态分布、互相独立、零均值的情况才能保证线性回归所估计出的值是真实可靠的数值。对于自变量X的要求则是非随机保证其为确定性变量。还需要保证自变量与扰动项之间不相关,若存在相关关系只可能是线性方程中参数估值存在误差。对于所有的扰动项分布都要遵循正态分布,如图所示。 只有这样线性回归所估计出的模型才可以采信。

在对函数进行拟合之后,我们可以得到一个线性模型:\large \widehat{y}=\widehat{a}+\widehat{b}x。其中,\large \widetilde{}\large \widehat{a}\large \widehat{b}是参数a和b的拟合值。\large \widehat{y}是y的估计值,也称回归值。其中,我们采用的同一个总体之中的不同样本集也会得到不同的回归直线。样本集越大,样本回归直线越接近总体回归直线。所以,我们在训练线性模型的时候选取合适的样本大小可以得到一个较为精确的回归直线。

 通过上述描述,我们可以对一元线性回归模型有了大体的认识。那么,我们如何去得到我们所需要拟合的线性方程参数\large \widehat{a}\large \widehat{b}呢?在机器学习中,相当于是我们需要一个代价函数。在数理统计之中,则是我们需要一个函数来描述模型所得到的估计值与真实值的相差的大小。在这里我们选择最小二乘法,通过最小化真实值与估计值的误差平方和(MSE)来进行模型的判定。我们的代价函数为下式:

\sum_{1}^{n}\varepsilon ^{2}=\sum_{1}^{n}(y_{i}-\widehat{y_{i}}) ^{2}=\sum_{1}^{n}(y_{i}-\widehat{a}-\widehat{b}x_{i}) ^{2}\rightarrow min

我们得到了关于拟合参数\widehat{a}\widehat{b}的函数,要求此函数极值要对两个参数分别求偏导,并使其偏导数为0。在此情况下求出的参数即为模型的拟合参数。在一元线性回归之中,选择这样的方式是比较简便的。但在多元模型中,正规方程求解的办法就会比较消耗时间,这时我们往往会选择梯度下降法来求多元函数的极值。所以,需要满足下面的等式:

\begin{cases} & \sum_{1}^{n}(\widehat{a}+\widehat{b}x_{i}-y)=0 \\ &\sum_{1}^{n}(\widehat{a}+\widehat{b}x_{i}-y)x_{i}=0 \end{cases}

对上式进行求解的结果为:

\begin{cases} & \widehat{a}=\overline{y}-b\overline{x}\\ & \widehat{b}=\frac{\sum_{1}^{n}(y_{i}-\overline{y})\sum_{1}^{n}(x_{i}-\overline{x}))}{\sum_{1}^{n}(x_{i}-\overline{x})^{2}} \end{cases}

上述结果即为通过正规方程求解法得出的,一元线性回归拟合参数值。

1.2关于一元回归模型显著性检验

我们在获得了拟合结果之后,需要对其进行检验用来描述此次的拟合参数是否正确。接下来总结几种比较常用的一元线性回归的检验方法:

1.2.1拟合优度检验

拟合程度是用来描述拟合直线与周边的点的拟合程度是否良好的参数,判断拟合程度优劣最常用的指标是标定系数。这里我们通过对估计值与真实值以及平均的差进行判断。

 

我们把真实值与均值的差值平方和称为离差平方和,统计学上记为SS_{T},我们把真实值与估计值的差的平方和称为残差平方和记为SS_{E},将估计值与均值的称为回归平方和。其中回归平方和是有拟合曲线的参数决定记为SS_{R}。所以,称为回归平方和。

SS_{T}=\sum_{1}^{n}(y_{i}-\overline{y})^{2}==\sum_{1}^{n}(y_{i}-\widehat{y})^{2}+\sum_{1}^{n}(\widehat{y}-\overline{y})^{2}=SS_{E}+SS_{R}

我们在描述拟合程度的时候,残差平方和占比越大,回归平方和占比越小的情况下,说明整个方程拟合程度越好。由此得出的值越大,说明回归曲线拟合程度越好。值得注意的是,此值恒为正,取值范围在0~1之间,并且是一个没有单位的统计量。

R^{2}= \frac{SS_{R}}{SS_{T}}

1.2.2相关系数检验

我们可以通过相关系数来了解两组变量之间的线性关系,我们可以通过总体相关系数进行判断。

\rho =\frac{Cov(X,Y)}{\sqrt{Var(X))}\sqrt{Var(Y))}}

但是有时候,我们不能获取总体数据。此时我们可以通过样本相关系数进行判断。但选择样本相关系数的时候需要注意,根据显著性水平与置信度进行判断,所得的相关性系数是否可信。

r=\frac{S_{xy}}{S_{x}S_{y}}

1.2.3回归参数检验

我们对回归参数进行假设。我们设原假设为回归参数为0,与之相反的假设则为参数不为0。

H_{0}:\beta_{1} =0

H_{1}:\beta_{1} \neq 0

计算统计量t,根据给定的显著性水平与计算出的t值判断是否接受受原假设,如果接受则不显著。反之,显著。

t=\frac{b_{1}-\beta _{1}}{S(b_{1})}=\frac{b_{1}-0}{S(b_{1})}=\frac{b_{1}}{S(b_{1})}

1.2.4回归方程显著性检验

我们选择t检验的时候,可以针对某一特定的系数检验。而当我们想要对回归方程整体进行检验的时候,应该选择一种怎样的方式呢?在一元线性回归问题中,我们选择F检验。将总的离差平方和与残差平方和除以自由度的值作比,通过这种方法得出的统计值F,可以描述回归方程是否显著。F的值越大,模型效果越好。统计量F~F(1,n-2)在显著水平a下F> F_{a}就可以认为模型十分显著了。

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值