python 线性回归统计检验 p值_线性回归模型理论&案例

最新推荐文章于 2024-04-01 10:05:13 发布

weixin_39862871

最新推荐文章于 2024-04-01 10:05:13 发布

阅读量1.2w

点赞数 8

文章标签： python 线性回归统计检验 p值回归分析常数项t值没有显著异于零怎么办线性回归系数的标准误

本文深入探讨了Python中的线性回归模型，包括一元和多元线性回归的定义，以及模型的显著性检验方法。通过极大似然函数和最小二乘法解释了如何求解回归系数，并介绍了线性关系显著性检验的F统计量和回归系数的t统计量。此外，文章还详细讨论了多重共线性、强影响点诊断和残差诊断，以及如何处理这些问题。最后，通过实例展示了模型诊断和正则化方法（岭回归、LASSO回归和弹性网络回归）在实际问题中的应用。

摘要由CSDN通过智能技术生成

为什么讲线性回归模型？

1、线性回归模型是最基础的模型，我们之前讲了很多高大上的模型，却忽视了这个模型，因此想对这个模型有进一步了解；

2、线性回归模型用起来很简单，但是看了很多资料后，发现它的原理并不也很简单，我们经常简单去使用，而对后面的复杂原理却了解较少；

3、我们分析中经常要做x对连续变量y的(相关分析、影响分析、预测分析)，线性回归模型正是可以用于这些场景。

一、线性回归模型

1.1、线性回归模型的定义

线性回归按变量数量的多少可以分为：一元线性回归(简单线性回归)和多元线性回归。

一元线性回归，也就是有一个自变量，其模型可以表示如下：

公式中参数解释如下：

x：自变量

y：因变量

β 0：截距

β 1：变量回归系数

ϵ：误差项的随机变量1

这些参数中，(β 0+β 1x)反映了由于x的变化而引起的y的线性变化；ϵ反映了除了x和y之间的线性关系之外的随机因素对y的影响，是不能由x和y之间的线性关系所解释的变异性。

同样的，多元线性回归模型的表示如下：

我们通过引入了ϵ可以让模型达到完美状态，也就是理论的回归模型。但是我们要如何定义这个无法预测的误差项呢？为此，伟人们提出了一些假设条件：在统计学中，高斯－马尔可夫定理陈述的是：在误差零均值，同方差，且互不相关的线性回归模型中，回归系数的最佳无偏线性估计(BLUE)就是最小方差估计。

总结一下，有如下几个主要的假设条件：

(1)误差项ϵ是一个期望为0的随机变量，即E(ϵ)=0

(2)对于自变量的所有值，ϵ的方差σ^2都相同

(3)误差项ϵ是一个服从正态分布的随机变量，且相互独立，即ϵ~N(0,σ^2)

ϵ正态性意味着对于给定的自变量，因变量y也是一个服从正态分布的随机变量。根据回归模型的假设，有如下多元回归方程：

为了书写的方便，可以将回归模型的方程式写成：

1.2、怎么求解回归系数？

1、极大似然函数

从线性回归模型的公式，可以得到：

根据上面假设条件：ϵ 服从均值为0，方差为σ的正态分布，且独立。

首先来看一下正态分布的概率密度函数：

因此随机变量ϵ 的概率密度函数为：

即：

上式反应的是计算y的条件概率，如果概率值越大，则说明预测出来的y会越接近于真实的y，所以，现在的问题就变成了计算概率的最大值。根据，观测之间的y是独立的假设，我们可以对其构造极大似然函数，即：

为了求解的方便，我们在等式两边取对数：

由于等式右边的前半部分是一个常数，而后半部分是一个负值，所以求解似然函数的极大值问题就转换成了求的最小值，即：

，这也叫做线性回归的损失函数，进一步推导如下：

2、最小二乘法和梯度下降法

对于误差平方和损失函数的求解方法有很多，典型的如最小二乘法，梯度下降法。

(1)最小二乘法

要想求得上面目标函数的最小值，可以通过求偏导数，然后使偏导数为0即可：

(2)梯度下降法

上面的普通最小二乘有一个小小的瑕疵(这个瑕疵发生的概率还是非常小的)，并不能确保方阵X’X是可逆的，即X’X的行列式一定不为0，如果自变量之间存在高度共线性的话，那就会导致X’X是不可逆。这里，我们再分享一种利用“梯度下降”的方法实现偏回归参数的求解，该方法就可以很好的避免上面的瑕疵。

我们知道，目标函数是关于偏回归系数的二次函数，且开口向上，即凸函数，那这样的目标函数就会存在极小值。所以，我们就可以对每个偏回归系数求偏导数，而偏导数据梯度的概念：

那梯度下降中的“下降”是什么意思呢？其实就是指迭代，每迭代一次，就是一次下降的过程，这个过程，就是为了找到目标函数的极小值，如下面的形象图示：

这种下降的迭代，可以用下面的公式表示：

注意，这里的步长既不能太小，也不能太大，如果太小的话，会导致迭代次数暴增，降低算法的运行效率，加大运行的时间成本和运行空间；反之容易跨过极小值，无法达到全局最优。

(3)最小二乘法 vs 梯度下降法

通过上面推导，我们不难看出，二者都对损失函数的回归系数进行了求偏导，并且所得到的推导结果是相同的，那么究竟哪里不同呢？

如果仔细观察，可以观察到：最小二乘法通过使推导结果等于0，从而直接求得极值，而梯度下降则是将推导结果带入迭代公式中，一步一步地得到最终结果。简单地说，最小二乘法是一步到位的，而梯度下降是一步步进行的。

因而通过以上的异同点，总结如下：

最小二乘法：

l得到的是全局最优解，因为一步到位，直接求极值，因而步骤简单

l线性回归的模型假设，这是最小二乘方法的优越性前提，否则不能推出最小二乘是最佳(即方差最小)的无偏估计

梯度下降法：

l得到的是局部最优解，因为是一步步迭代的，而非直接求得极值

l既可以用于线性模型，也可以用于非线性模型，没有特殊的限制和假设条件

1.3、怎么进行模型的显著性检验？

要想知道我们根据样本拟合的模型是否可以有效地预测或估计，我们需要对拟合的模型进行显著性检验。回归分析中的显著性检验主要包括两方面内容：线性关系检验；回归系数检验。

1、线性关系显著检验

线性关系检验是指多个自变量x和因变量y之间的线性关系是否显著，它们之间是否可以用一个线性模型表示。

我们从下面这张图来理解一下几个离差平方和的概念：

TSS：y的实际值与y的平均值的差的平方和；

RSS：y的估计值与y的平均值的差的平方和；

ESS：y的实际值与y的估计值的差的平方和。

上面的三种离差平方和，存在这样的等式关系：TSS=RSS+ESS。实际上，TSS是固定，而ESS和RSS是跟模型的预测值有关的，如果模型拟合的越好，则误差平方和(ESS)应该越小，对应的RSS越大。所以，根据这两个离差平方和就可以构造模型检验的统计量F：

利用F统计量，线性关系检验的一般步骤为：

(1)提出原假设和备择假设

(2)计算检验的统计量F

(3)作出统计决策

与假设检验相同，如果给定显著性水平α，则根据两个自由度k和n-k-1进行F分布的查表。若F>Fa，则拒绝原假设，说明发生了小概率事件；若F，则不拒绝原假设。当然，我们也可以直接通过观察P值来决定是否拒绝原假设。

通过上面步骤的假设，我们也看到了：在多元线性回归中，只要有一个自变量系数不为零(即至少一个自变量系数与因变量有线性关系)，我们就说这个线性关系是显著的。如果不显著，说明所有自变量系数均为零。

2、回归系数的显著检验

上面是针对模型的显著性检验作了相关的理论说明，但模型OK(所有的偏回归系数不全为0)，并不代表每一个自变量对因变量都是重要的，即每一个偏回归系数都是OK(所有的偏回归系数都不为0)的，所以，我们还需要对模型的每个偏回归系数进行显著性检验。在检验之前，我们需要先了解一下偏回归系数的期望和方差：

公式推导如下：

既然有了偏回归系数的期望和方差，我们就可以根据标准正态分布来构造t分布了(之所以是t分布，是因为总体方差未知)。如果变量x服从正态分布，则可以通过下面的方式将其转换为标准正态分布：

当总体方差未知的时候，则使用样本方差来代替，但要付出一些代价，不再是标准正态分布，而是自由度为n-1的t分布：

因此，我们可以通过这种检验来判断一个特征(自变量)的重要性，并对特征进行筛选。检验统计量使用t分布，步骤如下：

最低0.47元/天解锁文章

weixin_39862871

关注

8
点赞
踩
45

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python 线性回归 统计检验 p值_线性回归模型理论&amp;案例

python 线性回归统计检验 p值_线性回归模型理论&案例