回归分析概述
定义
在统计学中,回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计学方法。回归分析按照涉及自变量的多少,分为一元回归和多元回归;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量的关系类型,可分为线性回归分析和非线性回归分析。
常见回归分析
一元线性回归,多元线性回归,一元非线性回归分析,多元非线性回归分析
相关分析
研究两个或两个以上的变量之间相关程度及大小的一种统计方法,如主成分分析和灰色关联分析。而回归分析时寻找相关关系的变量间的数学表达式,并进行统计推断的一种统计方法。
回归分析的一般步骤
- 确定回归方程中的解释变量和被解释变量(自变量,因变量)
- 确定回归模型,建立回归方程
- 对回归方程进行各种检验
- 利用回归方程进行预测
回归分析基本概念
-
因变量:被预测或被解释的变量,用y表示
-
自变量:预测或解释因变量的一个或多个变量,用x表示
-
回归方程:描述y的期望值如何依赖于自变量x的方程称为回归方城.一元线性回归方程为 E ( y ) = β 0 + β 1 x E(y)=\beta_0+\beta_1x E(y)=β0+β1x
-
参数的最小二乘估计:对于回归直线,关键在于求解参数,常用高斯提出的最小二乘法,它是使用因变量观察值y与估计值之间的离差平方和达到最小来求解的
Q = ∑ ( y − y ^ ) 2 = ∑ ( y − β ^ 0 − β ^ 1 x ) 2 {Q}=\sum(y-\hat{y} )^{2}=\sum\bigl(y-\hat{\beta}_{0}-\hat{\beta}_{1}x\bigr)^{2} Q=∑(y−y^)2=∑(y−β^0−β^1x)2
展开可得: Q = ∑ ( y − y ^ ) 2 = ∑ y 2 + n β ^ 0 2 + β ^ 1 2 Σ x 2 + 2 β ^ 0 β ^ 1 Σ x − 2 β ^ 0 Σ y − 2 β ^ 1 Σ x y \text{展开可得:}Q=\sum(y-\hat{y})^{2}=\sum y^{2}+n\hat{\beta}_{0}^{2}+\hat{\beta}_{1}^{2}\Sigma x^{2}+2\hat{\beta}_{0} \hat{\beta}_{1}\Sigma x-2\hat{\beta}_{0} \Sigma y-2\hat{\beta}_{1}\Sigma xy 展开可得:Q=∑(y−y^)2=∑y2+nβ^02+β^12Σx2+2β^0β^1Σx−2β^0Σy−2β^1Σxy
求偏导可得: { ∑ y = n β ^ 0 + β ^ 1 Σ x ∑ x y = 2 β ^ 0 Σ x + β ^ 1 Σ x 2 \text{求偏导可得:}\begin{cases}\sum y=n\hat{\beta}_0+\hat{\beta}_1\Sigma x\\\sum xy=2\hat{\beta}_0\Sigma x+\hat{\beta}_1\Sigma x^2\end{cases} 求偏导可得:{∑y=nβ^0+β^1Σx∑xy=2β^0Σx+β^1Σx2
{ β ^ 1 = n ∑ x y − ∑ x ∑ y n ∑ x 2 − ( ∑ x ) 2 . β ^ 0 = y ˉ − β ^ 1 x ˉ \begin{cases}\hat{\beta}_{1}=\frac{n\sum xy-\sum x\sum y}{n\sum x^{2}-(\sum x)^{2}}\\.\\\hat{\beta}_{0}=\bar{y}-\hat{\beta}_{1}\bar{x}\end{cases} ⎩ ⎨ ⎧β^1=n∑x2−(∑x)2n∑xy−∑x∑y.β^0=yˉ−β^1xˉ
- 误差:ɛ是独立并且具有相同的分布,并且服从均值为0方差为σ²的正态分布
- 正态分布表达式: p ( x ) = 1 2 π σ exp − ( x − μ ) 2 2 σ 2 p(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp^{\frac{-(x-\mu)^{2}}{2\sigma^{2}}} p(x)=2πσ1exp2σ2−(x−μ)2
- 估计标准误差:为了度量回归分析的可靠性,通常计算估计标准误差,它度量观察值回绕着回归直线的变化程度或分散程度,其值越大,回归方程代表性就越小
S e = ∑ ( y − y ^ ) 2 n − 2 {S_e}=\sqrt{\frac{\sum(y-\hat{y})^2}{n-2}} Se=n−2∑(y−y^)2 - 置信/预测区间估计:
置信区间: y ^ 0 ± t α 2 s e 1 n + ( x 0 − x ˉ ) 2 ∑ ( x − x ˉ ) 2 \text{置信区间:}\hat{y}_{0}\pm t_{\frac{\alpha}{2}}s_{e}\sqrt{\frac{1}{n}+\frac{(x_{0}-\bar{x})^{2}}{\sum(x-\bar{x})^{2}}} 置信区间:y^0±t2αsen1+∑(x−xˉ)2(x0−xˉ)2
预测区间: y ^ 0 ± t α 2 s e 1 + 1 n + ( x 0 − x ˉ ) 2 ∑ ( x − x ˉ ) 2 \text{预测区间:}\widehat{y}_0\pm t_{\frac\alpha2}s_e\sqrt{1+\frac1n+\frac{(x_0-\bar{x})^2}{\sum(x-\bar{x})^2}} 预测区间:y 0±t2αse1+n1+∑(x−xˉ)2(x0−xˉ)2
回归直线的拟合优度
回归直线与各观测点的接近程度称为回归直线对数据的拟合优度
- 总平方和(TSS)
反映因变量的n个观察值与其均值的总离差
T S S = ∑ y i 2 = ∑ ( y i − y ˉ i ) 2 TSS=\sum y_{i}^{2}=\sum(y_{i}-\bar{y}_{i})^{2} TSS=∑yi2=∑(yi−yˉi)2
- 回归平方和(ESS)
反印了y的总变差中,由于x与y之间线性关系引起的y的变化部分
E
S
S
=
∑
y
^
i
2
=
∑
(
y
^
i
−
y
ˉ
i
)
2
ESS=\sum\hat{y}_{i}^{2}=\sum(\hat{y}_{i}-\bar{y}_{i})^{2}
ESS=∑y^i2=∑(y^i−yˉi)2
- 残差平方和(RSS)
反映了除了x对y的线性影响之外的因素对y变差的作用,是不能由回归直线来解释的变差部分