统计学第十二周:回归分析

统计学第十二周:回归分析

一、 概念

回归分析主要解决的问题有:

(1)从一组样本数据出发,确定变量之间的数学关系式

(2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出那些变量的影响是显著的,那些事不显著的。

(3)利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。

  1. 一元线性回归

    1.1 相关关系

    ⚛️ 如果两个变量,一个增长另一个也随之增长,则成为正相关,反之为负相关。可以用散点图初步展示一下数据的相关关系。

    👟相关系数:correlation coefficient ,是根据样本数据计算的度量两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的,
    称 为 总 体 相 关 系 数 , 记 为 ρ ; 若 是 根 据 样 本 数 据 计 算 的 , 称 为 样 本 相 关 系 数 , 记 为 γ 称为总体相关系数,记为\rho ;若是根据样本数据计算的,称为样本相关系数 ,记为 \gamma ρ;γ

    样 本 相 关 系 数 的 计 算 公 式 γ = n ∑ x y − ∑ x ∑ y n ∑ x 2 − ( ∑ x ) 2 n ∑ y 2 − ( ∑ y ) 2 样本相关系数的计算公式\gamma = \frac{n\sum{xy}-\sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\sqrt{n\sum{y^2}-(\sum{y})^2}} γ=nx2(x)2 ny2(y)2 nxyxy

    按照上述公式计算的相关系数也称为线性相关系数 linear correlation coefficient ,或称为Pearson 相关系数(Pearson’s correlation coefficient)。

    🛰相关系数r的取值范围为[-1,1],如果为正,表明两者间存在正线性相关关系,如果为负,则是负线性相关关系。若r=+1 ,表明完全正线性相关关系,如r=-1,表明x与y间为完全负线性相关关系。r=0时,表明两者不存在线性相关关系。r具有对称性。

    1.2 最小二乘法

    对于第i个x值,估计的回归方程可表示为:
    y ^ i = β ^ 0 + β ^ 1 x i \widehat{y}_i=\widehat{\beta}_0+\widehat{\beta}_1x_i y i=β 0+β 1xi
    利用德国科学家卡尔-高斯提出的最小化图中垂直方向的离差平方和来估计参数,根据这一方法确定模型参数的方法称为最小二乘法,也称为最小平方法。

在这里插入图片描述
根 据 最 小 二 乘 法 , 使 Q = ∑ ( y i − y ^ i ) 2 = ∑ ( y i − β ^ 0 − β ^ 1 x i ) 2 , 最 小 根据最小二乘法,使Q=\sum(y_i-\widehat{y}_i)^2=\sum{(y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i)}^2 ,最小 使Q=(yiy i)2=yiβ 0β 1xi2,

求 偏 导 数 , 得 到 ∂ Q ∂ β 0 ∣ β 0 = β ^ 0 = − 2 ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i ) = 0 求偏导数,得到\frac{\partial Q}{\partial \beta_0}|_{\beta_0=\widehat{\beta}_0}=-2\sum_{i=1}^{n}(y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i)=0 β0Qβ0=β 0=2i=1n(yiβ 0β 1xi)=0

∂ Q ∂ β 1 ∣ β 1 = β ^ 1 = − 2 ∑ i = 1 n x i ( y i − β ^ 0 − β ^ 1 x i ) = 0 \frac{\partial{Q}}{\partial{\beta}_1}|_{\beta_1=\widehat{\beta}_1}=-2\sum_{i=1}^{n}x_i(y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i)=0 β1Qβ1=β 1=2i=1nxi(yiβ 0β 1xi)=0

然后求解方程组,(截距通常没有物理意义)
当 x = x ‾ 时 , y ^ = y ‾ , 即 回 归 直 线 通 过 ( x ‾ , y ‾ ) , 这 是 重 要 的 特 征 。 当x=\overline{x}时,\widehat{y}=\overline{y},即回归直线通过(\overline{x},\overline{y}),这是重要的特征。 x=xy =y,线(x,y),
1.3 拟合优度检测

回归直线与各观测点的接近程度称为回归直线对数据的拟合优度 goodness of fit。直线的拟合优度,需要计算判定系数。

判定系数是对估计的回归方程拟合优度的度量。
总 平 方 和 : S S T = ∑ ( y i − y ‾ ) 2 总平方和:SST=\sum{(y_i-\overline{y})^2} SST=(yiy)2

S S T = ∑ ( y i − y ‾ ) 2 = ∑ ( y i − y ‾ i ) 2 + ∑ ( y ^ i − y ‾ ) 2 SST=\sum(y_i-\overline{y})^2=\sum{(y_i-\overline{y}_i)^2}+\sum{(\widehat{y}_i-\overline{y})^2} SST=(yiy)2=(yiyi)2+(y iy)2

S S T = S S E + S S R , S S E 为 残 差 平 方 和 或 误 差 平 方 和 ( x 对 y 线 性 影 响 之 外 的 其 他 因 素 引 起 的 y 的 变 化 ) , S S R 为 回 归 执 行 , 即 X 变 化 引 起 的 y 的 变 化 , 称 为 回 归 平 方 和 。 SST=SSE+SSR,SSE为残差平方和或误差平方和(x对y线性影响之外的其他因素引起的y的变化),SSR为回归执行,即X变化引起的y的变化,称为回归平方和。 SST=SSE+SSR,SSExy线ySSRXy

在这里插入图片描述

判定系数coefficient of determination ,回归平方和占总平方和的比例称为判定系数
判 定 系 数 R 2 = S S R S S T = ∑ ( y ^ i − y ‾ ) 2 ∑ ( y i − y ‾ ) 2 = 1 − ∑ ( y i − y ^ i ) 2 ∑ ( y i − y ‾ ) 2 判定系数R^2=\frac{SSR}{SST}=\frac{\sum{(\widehat{y}_i-\overline{y})^2}}{\sum{(y_i-\overline{y})^2}}=1-\frac{\sum{(y_i-\widehat{y}_i)^2}}{\sum{(y_i-\overline{y})^2}} R2=SSTSSR=(yiy)2(y iy)2=1(yiy)2(yiy i)2
判定系数测度了回归直线对观测数据的拟合程度。范围[0,1],在一元线性回归中,相关系数r实际上是判定系数的平方根。判定系数为1,则拟合是完全的;当判定系数为0时,两者完全没有关系。相关系数与直线的斜率符号是一致的。

注:用r说明回归直线的拟合优度要慎重。

1.4 显著性实验
一 般 情 况 下 , 总 体 相 关 系 系 数 ρ 是 未 知 的 , 通 常 将 样 本 相 关 系 数 γ 作 为 ρ 的 近 似 估 计 值 。 一般情况下,总体相关系系数\rho是未知的,通常将样本相关系数\gamma作为\rho的近似估计值。 ργρ
这样根据抽样,往往会具有波动性,考察样本相关系数的可靠性,就需要进行显著性检验。

🔽 r的抽样分布

在这里插入图片描述
🔽r的显著性检验

对r抽样分布,如果假设服从正态检验,具有很大的风险,依据经验采用费希尔提出的T检验,该检验可以用于小样本,也可以用于大样本。

在这里插入图片描述

回归分析的主要目的是根据所建立的估计方程用自变量x来估计或预测因变量y的取值。但是建立方程后,还需要通过检验来验证是否真的满足整体。

回归分析中的显著性检验主要包括两方面:一是线性关系的检验;二是回归系数的检验。

⚖️线性关系检验是检验自变量x和因变量y之间的线性关系是否显著。
F = S S R / 1 S S E / ( n − 2 ) , 服 从 分 子 自 由 度 为 1 , 分 母 自 由 度 为 n − 2 的 F 分 布 。 F=\frac{SSR/1}{SSE/(n-2)},服从分子自由度为1,分母自由度为n-2的F分布。 F=SSE/(n2)SSR/11n2F
假设的步骤:
1 : 提 出 假 设 , H 0 : β 1 = 0 两 个 变 量 之 前 线 性 关 系 不 显 著 1:提出假设,H_0: \beta_1=0 两个变量之前线性关系不显著 1H0:β1=0线

2. 计 算 检 验 统 计 量 F = S S R / 1 S S E / ( N − 2 ) = M S R M S E 2.计算检验统计量F = \frac{SSR/1}{SSE/(N-2)}=\frac{MSR}{MSE} 2.F=SSE/(N2)SSR/1=MSEMSR

3. 做 出 决 策 。 确 定 显 著 性 水 平 , 并 根 据 分 子 自 由 度 和 分 母 自 由 度 查 找 F 分 布 表 , 找 到 响 应 的 临 界 值 F α 。 若 F > F α , 则 拒 绝 H 0 , 表 明 两 个 变 量 之 间 的 线 性 关 系 是 显 著 的 ; 若 < , 不 拒 绝 假 设 , 则 没 有 证 据 表 明 两 个 变 量 之 间 的 线 性 关 系 。 3.做出决策。确定显著性水平,并根据分子自由度和分母自由度查找F分布表,找到响应的临界值F_\alpha。 若F>F_\alpha,则拒绝H_0,表明两个变量之间的线性关系是显著的;若<,不拒绝假设,则没有证据表明两个变量之间的线性关系。 3.FFαF>Fα,H0,线<线

⚖️回归系数的检验,是要检验自变量对因变量的影响是否显著。
1. 假 设 检 验 H 0 : β 1 = 0 , H 1 : β 1 ≠ 0 1.假设检验H_0: \beta_1=0,H_1: \beta_1 \neq 0 1.H0:β1=0,H1:β1=0

2. 计 算 检 验 统 计 量 t = β ^ 1 / s β ^ 1 2.计算检验统计量t = \widehat{\beta}_1/s_{\widehat{\beta}_1} 2.t=β 1/sβ 1

3. 做 出 决 策 。 确 定 显 著 性 水 平 α , 并 根 据 自 由 度 n − 2 查 t 分 布 表 , 找 到 相 应 的 临 界 值 t α / 2 。 若 ∣ ∣ 3. 做出决策。确定显著性水平\alpha,并根据自由度n-2查t分布表,找到相应的临界值t_{\alpha /2}。若|| 3.α,n2ttα/2

若 ∣ t ∣ > t α / 2 则 拒 绝 H 0 , 则 回 归 系 数 等 于 0 的 可 能 性 小 于 α , 表 明 自 变 量 x 对 因 变 量 y 的 影 响 是 显 著 的 。 若|t|>t_{\alpha/2}则拒绝H_0,则回归系数等于0的可能性小于\alpha,表明自变量x对因变量y的影响是显著的。 t>tα/2H0,0αxy

在一元线性回归中因为只有一个自变量,F检验和t检验是等价的,但在多元回归分析中,这两种的意义是不同。

1.5 回归预测

y=f(x)的关系,利用一系列x,y的值需求一个数学表达式,从而利用已知的X来预测y值的过程。当回归中只涉及一个自变量时,称为一元回归,若因变量y与自变量x之间为线性关系,则称为一元线性回归。
一 元 线 性 回 归 模 型 : y = β 0 + β 1 x + ϵ 一元线性回归模型: y=\beta_0+\beta_1x+\epsilon 线y=β0+β1x+ϵ

ϵ 为 误 差 项 , y 是 x 的 线 性 函 数 ( β 0 + β 1 x ) , 反 映 了 由 于 x 的 变 化 而 引 起 的 y 的 线 性 变 化 。 \epsilon 为误差项,y是x的线性函数 (\beta_0+\beta_1x),反映了由于x的变化而引起的y的线性变化。 ϵ,yx线(β0+β1x)xy线

在这里插入图片描述
[在这里插入图片描述
根 据 回 归 模 型 中 的 假 定 , ϵ 的 期 望 值 等 于 0 , 因 此 y 的 期 望 值 E ( Y ) = β 0 + b e t a 1 x , 也 就 是 说 y 的 期 望 值 是 x 的 线 性 函 数 。 根据回归模型中的假定,\epsilon的期望值等于0,因此y的期望值E(Y)=\beta_0+beta_1x,也就是说y的期望值是x的线性函数。 ϵ0yE(Y)=β0+beta1x,yx线
描述因变量y的期望值如何依赖于自变量x的方程称为回归方程。

🔽估计的回归方程 estimated regression equation
y ^ = β ^ 0 + β ^ 1 x \widehat{y}= \widehat{\beta}_0+\widehat{\beta}_1x y =β 0+β 1x

1.6 残差分析

判定系数可以用于度量回归直线的拟合程度,相关系数也可以起到类似的作用。而残差平方和则可以说明实际观测值与回归估计值之间的差异程度。

估计标准误差standard error of estimate就是度量各实际观测点在直线周围的散布状况的一个统计量,他是均方残差MSE的平方根,
S e = ∑ ( y i − y ^ i ) 2 n − 2 = S S E n − 2 = M S E S_e=\sqrt{\frac{\sum(y_i-\widehat{y}_i)^2}{n-2}}=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE} Se=n2(yiy i)2 =n2SSE =MSE

KaTeX parse error: Undefined control sequence: \epsison at position 4: 假定\̲e̲p̲s̲i̲s̲o̲n̲是否成立,方法之一就是进行残差…

残差是因变量的观测值与根据估计的回归方程求出的预测值之差。e表示;也可以通过标准化残差。标准化残差是残差除以它的标准差之后得到的数值也称为pearson残差。

  1. 多元线性回归

    2.1 多重共线性
    KaTeX parse error: Undefined control sequence: \elpson at position 55: …...+\beta_kx_k+\̲e̲l̲p̲s̲o̲n̲ ̲
    多元回归,参数的最小二乘估计,等参考一元线性回归计算方式。

    在回归模型中两个或两个以上的自变量彼此相关时,称为回归模型中存在多重共线性。

    检测多重共线性的一个方法是用对各相关系数进行显著性检验。如果一个或多个相关系数是显著的,就表明模型中所使用的自变量之间相关。

    2.2 变量选择与逐步回归

    选择自变量的原则是对统计量进行显著性检验,检验的依据是:将一个或一个以上的自变量引入回归模型中时,是否使残差平方和SSE显著减少。

    变量的选择方法主要有:向前选择forward selection 、向后剔除 backward elimination 、逐步回归stepwise regression 、最优子集等。

    逐步回归:融合向前选择和向后剔除的方法。:按照此方法不停的增加变量并考虑剔除以前增加的变量的可能性,直至增加变量不会导致SSE显著减少,这个过程可以用F统计量来检验。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值