python 线性回归 统计检验 p值_线性回归模型理论&案例

为什么讲线性回归模型?

1、线性回归模型是最基础的模型,我们之前讲了很多高大上的模型,却忽视了这个模型,因此想对这个模型有进一步了解;

2、线性回归模型用起来很简单,但是看了很多资料后,发现它的原理并不也很简单,我们经常简单去使用,而对后面的复杂原理却了解较少;

3、我们分析中经常要做x对连续变量y的(相关分析、影响分析、预测分析),线性回归模型正是可以用于这些场景。

一、线性回归模型

1.1、线性回归模型的定义

线性回归按变量数量的多少可以分为:一元线性回归(简单线性回归)和多元线性回归。

一元线性回归,也就是有一个自变量,其模型可以表示如下:

f4b9ec96f54fb05c873a24395e3d172a.png

公式中参数解释如下:

x:自变量

y:因变量

β 0:截距

β 1:变量回归系数

ϵ:误差项的随机变量1

这些参数中,(β 0+β 1x)反映了由于x的变化而引起的y的线性变化;ϵ反映了除了x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性。

同样的,多元线性回归模型的表示如下:

2710e2e1b75bf50a97bf4e3cf1f4b429.png

我们通过引入了ϵ可以让模型达到完美状态,也就是理论的回归模型。但是我们要如何定义这个无法预测的误差项呢?为此,伟人们提出了一些假设条件:在统计学中,高斯-马尔可夫定理陈述的是:在误差零均值,同方差,且互不相关的线性回归模型中,回归系数的最佳无偏线性估计(BLUE)就是最小方差估计。

总结一下,有如下几个主要的假设条件:

(1)误差项ϵ是一个期望为0的随机变量,即E(ϵ)=0

(2)对于自变量的所有值,ϵ的方差σ^2都相同

(3)误差项ϵ是一个服从正态分布的随机变量,且相互独立,即ϵ~N(0,σ^2)

ϵ正态性意味着对于给定的自变量,因变量y也是一个服从正态分布的随机变量。根据回归模型的假设,有如下多元回归方程:

3716a53f75d4efdaab5bfdb49ed4667f.png

       为了书写的方便,可以将回归模型的方程式写成:

329127b6fa3c003703f178b8c8b78db8.png

1.2、怎么求解回归系数?

1、极大似然函数

从线性回归模型的公式,可以得到:

def3fac5edf62c2bf56c30f9b3d69cac.png

根据上面假设条件:ϵ 服从均值为0,方差为σ的正态分布,且独立。

首先来看一下正态分布的概率密度函数:

456cef8eaa93b23719a6aca3ff350de0.png

因此随机变量ϵ 的概率密度函数为:

a13f03d777e438111a96f0966497accb.png     

即: 

8f7705e09627179834b4ff9cee442b2a.png

上式反应的是计算y的条件概率,如果概率值越大,则说明预测出来的y会越接近于真实的y,所以,现在的问题就变成了计算概率的最大值。根据,观测之间的y是独立的假设,我们可以对其构造极大似然函数,即:

a275d64e293642923d6fa2944b21e27a.png

为了求解的方便,我们在等式两边取对数:

e7a501ed9779c1d4a633f0d42c12ac4d.png

由于等式右边的前半部分是一个常数,而后半部分是一个负值,所以求解似然函数的极大值问题就转换成了求f24907a0e7c1f6a42052b68ee8cd7f8c.png的最小值,即:

0dc3beb29629ff74ef50055518fd99be.png,这也叫做线性回归的损失函数,进一步推导如下:

758463482d9cb29b841136516961116b.png

2、最小二乘法和梯度下降法

对于误差平方和损失函数的求解方法有很多,典型的如最小二乘法,梯度下降法。

(1)最小二乘法

要想求得上面目标函数的最小值,可以通过求偏导数,然后使偏导数为0即可:

10c8beb3b2692c2048316829b1c39bbb.png

(2)梯度下降法

上面的普通最小二乘有一个小小的瑕疵(这个瑕疵发生的概率还是非常小的),并不能确保方阵X’X是可逆的,即X’X的行列式一定不为0,如果自变量之间存在高度共线性的话,那就会导致X’X是不可逆。这里,我们再分享一种利用“梯度下降”的方法实现偏回归参数的求解,该方法就可以很好的避免上面的瑕疵。

我们知道,目标函数0d48f666b4aa1ba4d8bb4d6275f5ac15.png是关于偏回归系数的二次函数,且开口向上,即凸函数,那这样的目标函数就会存在极小值。所以,我们就可以对每个偏回归系数求偏导数,而偏导数据梯度的概念:

fa88e7e63f08c0fa2e6aadbf3b261101.png

那梯度下降中的“下降”是什么意思呢?其实就是指迭代,每迭代一次,就是一次下降的过程,这个过程,就是为了找到目标函数的极小值,如下面的形象图示:

15d5c2055d15f9e1c5041aabf1392250.png

这种下降的迭代,可以用下面的公式表示:

b3ea340ac79b8abee62beeb8b5ae6676.png

注意,这里的步长既不能太小,也不能太大,如果太小的话,会导致迭代次数暴增,降低算法的运行效率,加大运行的时间成本和运行空间;反之容易跨过极小值,无法达到全局最优。

(3)最小二乘法 vs 梯度下降法

通过上面推导,我们不难看出,二者都对损失函数的回归系数进行了求偏导,并且所得到的推导结果是相同的,那么究竟哪里不同呢?

如果仔细观察,可以观察到:最小二乘法通过使推导结果等于0,从而直接求得极值,而梯度下降则是将推导结果带入迭代公式中,一步一步地得到最终结果。简单地说,最小二乘法是一步到位的,而梯度下降是一步步进行的。

因而通过以上的异同点,总结如下:

最小二乘法:

l得到的是全局最优解,因为一步到位,直接求极值,因而步骤简单

l线性回归的模型假设,这是最小二乘方法的优越性前提,否则不能推出最小二乘是最佳(即方差最小)的无偏估计

梯度下降法:

l得到的是局部最优解,因为是一步步迭代的,而非直接求得极值

l既可以用于线性模型,也可以用于非线性模型,没有特殊的限制和假设条件

1.3、怎么进行模型的显著性检验?

要想知道我们根据样本拟合的模型是否可以有效地预测或估计,我们需要对拟合的模型进行显著性检验。回归分析中的显著性检验主要包括两方面内容:线性关系检验;回归系数检验。

1、线性关系显著检验

线性关系检验是指多个自变量x和因变量y之间的线性关系是否显著,它们之间是否可以用一个线性模型表示。

我们从下面这张图来理解一下几个离差平方和的概念:

3929ee3f75384754d32d2b25a7604476.png

9bb1f3b3914270c5c482a2579bde360d.png

TSS:y的实际值与y的平均值的差的平方和;

RSS:y的估计值与y的平均值的差的平方和;

ESS:y的实际值与y的估计值的差的平方和。

上面的三种离差平方和,存在这样的等式关系:TSS=RSS+ESS。实际上,TSS是固定,而ESS和RSS是跟模型的预测值有关的,如果模型拟合的越好,则误差平方和(ESS)应该越小,对应的RSS越大。所以,根据这两个离差平方和就可以构造模型检验的统计量F:

7cf673d630e645d7504742115ffc848b.png

利用F统计量,线性关系检验的一般步骤为:

(1)提出原假设和备择假设

a58f7618159ac4283981ac4d87b8b20b.png

(2)计算检验的统计量F

7cf673d630e645d7504742115ffc848b.png

(3)作出统计决策

与假设检验相同,如果给定显著性水平α,则根据两个自由度k和n-k-1进行F分布的查表。若F>Fa,则拒绝原假设,说明发生了小概率事件;若F,则不拒绝原假设。当然,我们也可以直接通过观察P值来决定是否拒绝原假设。

通过上面步骤的假设,我们也看到了:在多元线性回归中,只要有一个自变量系数不为零(即至少一个自变量系数与因变量有线性关系),我们就说这个线性关系是显著的。如果不显著,说明所有自变量系数均为零。

2、回归系数的显著检验

上面是针对模型的显著性检验作了相关的理论说明,但模型OK(所有的偏回归系数不全为0),并不代表每一个自变量对因变量都是重要的,即每一个偏回归系数都是OK(所有的偏回归系数都不为0)的,所以,我们还需要对模型的每个偏回归系数进行显著性检验。在检验之前,我们需要先了解一下偏回归系数的期望和方差:

c9b2188c404eb6e052a67e6b10b4960a.png

公式推导如下:

a652ec260239876a9d89f06d9c5b0722.png

a7e8d75557a4d35991cb95afa19cd996.png

既然有了偏回归系数的期望和方差,我们就可以根据标准正态分布来构造t分布了(之所以是t分布,是因为总体方差未知)。如果变量x服从正态分布,则可以通过下面的方式将其转换为标准正态分布:

606325781b7a3fbbb0e6966363ad27e4.png

当总体方差未知的时候,则使用样本方差来代替,但要付出一些代价,不再是标准正态分布,而是自由度为n-1的t分布:

625aee212240de0f87fdf5fee8ed03f7.png

因此,我们可以通过这种检验来判断一个特征(自变量)的重要性,并对特征进行筛选。检验统计量使用t分布,步骤如下:

  • 8
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值