数模笔记8-回归分析

回归分析主要涉及一元线性回归和多元线性回归,包括模型建立、参数估计、误差分析和预测控制。一元线性回归通过最小二乘法确定模型,如普通最小二乘法计算回归系数和随机误差项方差的估计量。多元线性回归则处理多个自变量的情况,通过F检验、R检验等方法进行模型显著性检验。此外,还讨论了非线性回归和逐步回归分析的应用。
摘要由CSDN通过智能技术生成

回归分析

一元线性回归

数学模型

一般地,称由 y = β 0 + β 1 x + ε 确定的模型为一元线性回归模型 记为 { y = β 0 + β 1 x + ε E ε = 0 , D ε = σ 2 固定的未知参数 β 0 、 β 1 称为回归系数,自变量 x 也称为回归变量 y = β 0 + β 1 x ,称为 y 对 x 的回归直线方程 一般地,称由y=β_0+β_1x+\varepsilon确定的模型为一元线性回归模型\\ 记为 \begin{cases} y=β_0+β_1x+\varepsilon \\ E\varepsilon=0,D\varepsilon=σ^2 \end{cases}\\ 固定的未知参数β_0、β_1称为回归系数,自变量x 也称为回归变量\\ y=β_0+β_1x,称为y对x的回归直线方程 一般地,称由y=β0+β1x+ε确定的模型为一元线性回归模型记为{y=β0+β1x+ε=0Dε=σ2固定的未知参数β0β1称为回归系数,自变量x也称为回归变量y=β0+β1x,称为yx的回归直线方程

一元线性回归分析的主要任务是:

  1. 用试验值(样本值)对β0、β1和σ作点估计;
  2. 对回归系数β0、β1作假设检验;
  3. 在x=x0处对y作预测,对y作区间估计。

普通最小二乘法

给定一组样本观测值(Xi, Yi),i=1,2,…n,假如模型参数估计量已经求得,并且是最合理的参数估计量,那么样本回归函数应该能够最好地拟合样本数据,即样本回归线上的点与真实观测点的“总体误差”应该尽可能地小。

普通最小二乘法给出的判断标准是:二者之差的平方和最小,即
Q = ∑ i = 1 n ( Y i − Y i ′ ) 2 = ∑ i = 1 n ( Y i − ( β 0 ′ + β 1 ′ X i ) ) 2 — > 最小 Q=\sum_{i=1}^n(Y_i-Y'_i)^2=\sum_{i=1}^n(Y_i-(β'_0+β'_1X_i))^2—>最小 Q=i=1n(YiYi)2=i=1n(Yi(β0+β1Xi))2>最小
换句话说,也就是要使所有样本点到样本回归线的竖直距离的平方和最小。
由于 Q = ∑ 1 n ( Y i − Y i ′ ) 2 = ∑ 1 n ( Y i − ( β 0 ′ + β 1 ′ X i ) ) 2 是 β 0 ′ 、 β 1 ′ 的二次函数,并且非负,所以其极小值总是存在的。 根据极值存在的条件,当 Q 对 β 0 ′ 、 β 1 ′ 的一阶偏导数为 0 时, Q 达到最小。即 { ∂ Q ∂ β 0 ′ = 0 ∂ Q ∂ β 1 ′ = 0 = > { ∑ ( Y i − β 0 ′ − β 1 ′ X i ) = 0 ∑ ( Y i − β 0 ′ − β 1 ′ X i ) X i = 0 = > { ∑ Y i = n β 0 ′ + β 1 ′ ∑ X i ∑ Y i X i = β 0 ′ ∑ X i + β 1 ′ ∑ X i 2 解得: { β 1 ′ = n ∑ Y i X i − ∑ Y i ∑ X i n ∑ X i 2 − ( ∑ X i ) 2 β 0 ′ = Y ‾ − β 1 ′ X ‾ 由于 β 0 ′ 、 β 1 ′ 的估计结果是从最小二乘原理得到的,故称为最小二乘估计量 由于Q=\sum_{1}^n(Y_i-Y'_i)^2=\sum_{1}^n(Y_i-(β'_0+β'_1X_i))^2是β'_0、β'_1的二次函数,并且非负,所以其极小值总是存在的。\\ 根据极值存在的条件,当Q对β'_0、β'_1的一阶偏导数为0时,Q达到最小。即\\ \begin{cases} \frac{∂Q}{∂β'_0}=0 \\ \frac{∂Q}{∂β'_1}=0 \end{cases}=> \begin{cases} \sum(Y_i-β'_0-β'_1X_i)=0 \\ \sum(Y_i-β'_0-β'_1X_i)X_i=0 \end{cases}=> \begin{cases} \sum Y_i=nβ'_0+β'_1\sum X_i \\ \sum Y_iX_i=β'_0\sum X_i+β'_1\sum X_i^2 \end{cases}\\ 解得:\begin{cases} β'_1=\frac{n\sum Y_iX_i-\sum Y_i\sum X_i}{n\sum X_i^2-(\sum X_i)^2} \\ β'_0=\overline{Y}-β'_1\overline{X} \end{cases}\\ 由于β'_0、β'_1的估计结果是 从 最 小 二 乘 原 理 得 到 的 ,故 称 为最 小 二 乘 估 计 量 由于Q=1n(YiYi)2=1n(Yi(β0+β1Xi))2β0β1的二次函数,并且非负,所以其极小值总是存在的。根据极值存在的条件,当Qβ0β1的一阶偏导数为0时,Q达到最小。即{β0Q=0β1Q=0=>{(Yiβ0β1Xi)=0(Yiβ0β1Xi)Xi=0=>{Yi=nβ0+β1XiYiXi=β0Xi+β1Xi2解得:{β1=nXi2(Xi)2nYiXiYiXiβ0=Yβ1X由于β0β1的估计结果是从最小二乘原理得到的,故称为最小二乘估计量
普通最小二乘参数估计量的离差形式
记 { X ‾ = 1 n ∑ X i Y ‾ = 1 n ∑ Y i x i = X i − X ‾ y i = Y i − Y ‾ 则参数估计量可以写成: { β 1 ′ = ∑ x i y i ∑ x i 2 β 0 ′ = Y ‾ − β 1 ′ X ‾ 记\begin{cases} \overline{X}=\frac{1}{n}\sum X_i \\ \overline{Y}=\frac{1}{n}\sum Y_i \\ x_i=X_i-\overline{X} \\ y_i=Y_i-\overline{Y} \end{cases}\\ 则参数估计量可以写成: \begin{cases} β'_1=\frac{\sum x_iy_i}{\sum x_i^2} \\ β'_0=\overline{Y}-β'_1\overline{X} \end{cases} X=n1XiY=n1Yixi=XiXyi=YiY则参数估计量可以写成:{β1=xi2xiyiβ0=Yβ1X
注:在计量经济学中,往往以大写字母表示原始数据(观测值),而以小写字母表示对均值的离差

随机误差项方差的估计量
记 e i = Y i − Y i ′ 为第 i 个样本观测点的残差,即被解释变量的估计值与观测值之差,则随机误差项方差的估计量为: σ μ ′ 2 = ∑ e i 2 n − 2 记e_i=Y_i-Y'_i为第i个样本观测点的残差,即被解释变量的估计值与观测值之差,则随机误差项方差的估计量为:\\ σ'^2_μ=\frac{\sum e_i^2}{n-2} ei=YiYi为第i个样本观测点的残差,即被解释变量的估计值与观测值之差,则随机误差项方差的估计量为:σμ′2=n2ei2

检验、预测与控制

  • 回归方程的显著性检验

    对回归方程的显著性检验,归结为对假设H0:β1=0;H1:β1≠0进行检验

    假设H0:β1=0被拒绝,则回归显著,认为y与x存在线性关系,所求的线性回归方程有意义;否则回归不显著,y与x 的关系不能用一元线性回归模型来描述,所得的回归方程也无意义.

    1. F检验法
      当 H 0 成立时, F = U Q e / ( n − 2 ) ∼ F ( 1 , n − 2 ) 其中 U = ∑ i = 1 n ( y i ′ − y ‾ ) 2 ( 回归平方和 ) 故 F > F 1 − α ( 1 , n − 2 ) ,拒绝 H 0 ,否则就接受 H 0 当H_0成立时,F=\frac{U}{Q_e/(n-2)}\sim F(1,n-2)\\ 其中U=\sum_{i=1}^{n}(y'_i-\overline{y})^2(回归平方和)\\ 故F>F_{1-α}(1,n-2),拒绝H_0,否则就接受H_0 H0成立时,F=Qe/(n2)UF(1,n2)其中U=i=1n(yiy)2(回归平方和)F>F1α(1,n2),拒绝H0,否则就接受H0

    2. t检验法

      适合样本较小的检验,n<30,总体方差未知
      当 H 0 成立时, T = L x x β 1 ′ σ e ′ ∼ t ( n − 2 ) 故 ∣ T ∣ > t 1 − α 2 ( n − 2 ) ,拒绝 H 0 ,否则就接受 H 0 其中 L x x = ∑ i = 1 n ( x i − x ‾ ) 2 = ∑ i = 1 n x i 2 − n x ‾ 2 当H_0成立时,T=\frac{\sqrt{L_{xx}}β'_1}{σ'_e}\sim t(n-2)\\ 故|T|>t_{1-\frac{α}{2}}(n-2),拒绝H_0,否则就接受H_0\\ 其中L_{xx}=\sum_{i=1}^{n}(x_i-\overline{x})^2=\sum_{i=1}^{n}x_i^2-n\overline{x}^2 H0成立时,T=σeLxx β1t(n2)T>t12α(n2),拒绝H0,否则就接受H0其中Lxx=i=1n(xix)2=i=1nxi2nx2

    3. r检验法
      记 r = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) ∑ i = 1 n ( x i − x ‾ ) 2 ∑ i = 1 n ( y i − y ‾ ) 2 当 ∣ r ∣ > r 1 − α 时,拒绝 H 0 ; 否则就接受 H 0 . 其中 r 1 − α = 1 1 + ( n − 2 ) / F 1 − α ( 1 , n − 2 ) 记r=\frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^n(x_i-\overline{x})^2\sum_{i=1}^n(y_i-\overline{y})^2}\\ 当|r|>r_{1-α}时,拒绝H_0;否则就接受H_0.\\ 其中r_{1-α}=\sqrt{\frac{1}{1+(n-2)/F_{1-α}(1,n-2)}} r=i=1n(xix)2i=1n(yiy)2i=1n(xix)(yiy)r>r1α时,拒绝H0;否则就接受H0.其中r1α=1+(n2)/F1α(1,n2)1

  • 回归系数的置信区间
    β 0 和 β 1 置信水平为 1 − α 的置信区间分别为 [ β 0 ′ − t 1 − α 2 ( n − 2 ) σ e ′ 1 n + x ‾ 2 L x x , β 0 ′ + t 1 − α 2 ( n − 2 ) σ e ′ 1 n + x ‾ 2 L x x ] 和 [ β 1 ′ − t 1 − α 2 ( n − 2 ) σ e ′ / L x x , β 1 ′ + t 1 − α 2 ( n − 2 ) σ e ′ / L x x ] σ 2 置信水平为 1 − α 的置信区间为 [ Q e x 1 − α 2 2 ( n − 2 ) , Q e x α 2 2 ( n − 2 ) ] β_0和β_1置信水平为1-α的置信区间分别为\\ [β'_0-t_{1-\frac{α}{2}}(n-2)σ'_e\sqrt{\frac{1}{n}+\frac{\overline{x}^2}{L_{xx}}},β'_0+t_{1-\frac{α}{2}}(n-2)σ'_e\sqrt{\frac{1}{n}+\frac{\overline{x}^2}{L_{xx}}}]\\ 和\\ [β'_1-t_{1-\frac{α}{2}}(n-2)σ'_e/\sqrt{L_{xx}},β'_1+t_{1-\frac{α}{2}}(n-2)σ'_e/\sqrt{L_{xx}}]\\ σ^2置信水平为1-α的置信区间为\\ [\frac{Q_e}{x_{1-\frac{α}{2}}^2}(n-2),\frac{Q_e}{x_\frac{α}{2}^2}(n-2)] β0β1置信水平为1α的置信区间分别为[β0t12α(n2)σen1+Lxxx2 ,β0+t12α(n2)σen1+Lxxx2 ][β1t12α(n2)σe/Lxx ,β1+t12α(n2)σe/Lxx ]σ2置信水平为1α的置信区间为[x12α2Qe(n2),x2α2Qe(n2)]

  • 预测与控制

    1. 预测
      用 y 0 的回归值 y 0 ′ = β 0 ′ + β 1 ′ x 0 作为 y 0 的预测值 y 0 的置信水平为 1 − α 的预测区间为 [ y 0 ′ − δ ( x 0 ) , y 0 ′ + δ ( x 0 ) ] 其中 δ ( x 0 ) = σ e ′ t 1 − α 2 ( n − 2 ) 1 + 1 n + ( x 0 − x ‾ ) 2 L x x 特别,当 n 很大且 x 0 在 x ‾ 附近取值时, y 的置信水平为 1 − α 的预测区间近似为: [ y ′ − δ e ′ u 1 − α 2 , y ′ + δ e ′ u 1 − α 2 ] 用y_0的回归值y'_0=β'_0+β'_1x_0作为y_0的预测值\\ y_0的置信水平为1-α的预测区间为[y'_0-\delta(x_0),y'_0+\delta(x_0)]\\ 其中\delta(x_0)=σ'_et_{1-\frac{α}{2}}(n-2)\sqrt{1+\frac{1}{n}+\frac{(x_0-\overline{x})^2}{L_{xx}}}\\ 特别,当n很大且x_0在\overline{x}附近取值时,y的置信水平为1-α的预测区间近似为:\\ [y'-\delta'_eu_{1-\frac{α}{2}},y'+\delta'_eu_{1-\frac{α}{2}}] y0的回归值y0=β0+β1x0作为y0的预测值y0的置信水平为1α的预测区间为[y0δ(x0),y0+δ(x0)]其中δ(x0)=σet12α(n2)1+n1+Lxx(x0x)2 特别,当n很大且x0x附近取值时,y的置信水平为1α的预测区间近似为:[yδeu12α,y+δeu12α]

    2. 控制
      要求: y = β 0 + β 1 x + ε 的值以 1 − α 的概率落在指定区间 ( y 1 , y 2 ) 只要控制 x 满足以下两个不等式 y ′ − δ ( x ) > = y 1 , y ′ + δ ( x ) < = y 2 要求 y 2 − y 1 > = 2 δ ( x ) 若 y ′ − δ ( x ) = y 1 , y ′ + δ ( x ) = y 2 分别有解 x 1 和 x 2 ,即 y ′ − δ ( x 1 ) = y 1 , y ′ + δ ( x 2 ) = y 2 则 ( x 1 , x 2 ) 就是所求的 x 的控制区间 要求:y=β_0+β_1x+\varepsilon的值以1-α的概率落在指定区间(y_1,y_2)\\ 只要控制x满足以下两个不等式\\ y'-\delta(x)>=y_1,y'+\delta(x)<=y_2\\ 要求y_2-y_1>=2\delta(x)\\ 若y'-\delta(x)=y_1,y'+\delta(x)=y_2分别有解x_1和x_2,即y'-\delta(x_1)=y_1,y'+\delta(x_2)=y_2\\ 则(x_1,x_2)就是所求的x的控制区间 要求:y=β0+β1x+ε的值以1α的概率落在指定区间(y1,y2)只要控制x满足以下两个不等式yδ(x)>=y1,y+δ(x)<=y2要求y2y1>=2δ(x)yδ(x)=y1,y+δ(x)=y2分别有解x1x2,即yδ(x1)=y1,y+δ(x2)=y2(x1,x2)就是所求的x的控制区间

可线性化的一元非线性回归(曲线回归)

配曲线的一般方法:

先对两个变量x和y作n次试验观察得(xi,yi),i=1,2,…,n 画出散点图,根据散点图确定须配曲线的类型.然后由n对试验数据确定每一类曲线的未知参数 a 和 b.采用的方法是通过变量代换把非线性回归化成线性回归,即采用非线性回归线性化的方法

通常选择的六类曲线:
( 1 ) 双曲线 1 y = a + b x ( 2 ) 幂函数曲线 y = a x b , 其中 x > 0 , a > 0 ( 3 ) 指数曲线 y = a e b x , 其中参数 a > 0 ( 4 ) 倒指数曲线 y = a e b x , 其中 a > 0 ( 5 ) 对数曲线 y = a + b l o g x , x > 0 ( 6 ) S 型曲线 y = 1 a + b e − x (1)双曲线\frac{1}{y}=a+\frac{b}{x}\\ (2)幂函数曲线y=ax^b,其中x>0,a>0\\ (3)指数曲线y=ae^{bx},其中参数a>0\\ (4)倒指数曲线y=ae^{\frac{b}{x}},其中a>0\\ (5)对数曲线y=a+blogx,x>0\\ (6)S型曲线y=\frac{1}{a+be^{-x}} (1)双曲线y1=a+xb(2)幂函数曲线y=axb,其中x>0,a>0(3)指数曲线y=aebx,其中参数a>0(4)倒指数曲线y=aexb,其中a>0(5)对数曲线y=a+blogx,x>0(6)S型曲线y=a+bex1

多元线性回归

数学模型及定义

一般称 { Y = X β + ε E ( ε ) = 0 , C O V ( ε , ε ) = σ 2 I n 为高斯 − 马尔可夫线性模型( k 元线性回归模型),并简记为 ( Y , X β , σ 2 I n ) Y = [ y 1 y 2 . . . y n ] , X = [ 1 x 11 x 12 . . . x 1 k 1 x 21 x 22 . . . x 2 k . . . . . . . . . . . . . . . 1 x n 1 x n 2 . . . x n k ] , β = [ β 0 β 1 . . . β k ] , ε = [ ε 1 ε 2 . . . ε n ] y = β 0 + β 1 x 1 + . . . + β k x k 称为回归平面方程 一般称 \begin{cases} Y=Xβ+\varepsilon \\ E(\varepsilon)=0,COV(\varepsilon,\varepsilon)=σ^2I_n \end{cases} 为高斯-马尔可夫线性模型(k元线性回归模型),并简记为(Y,Xβ,σ^2I_n)\\ Y= \begin{bmatrix} y_1 \\ y_2 \\ ...\\ y_n \end{bmatrix},\quad X= \begin{bmatrix} 1 & x_{11} & x_{12} & ... & x_{1k} \\ 1 & x_{21} & x_{22} & ... & x_{2k} \\ ... & ... & ... & ... & ... \\ 1 & x_{n1} & x_{n2} & ... & x_{nk} \end{bmatrix},\quad β= \begin{bmatrix} β_0 \\ β_1 \\ ...\\ β_k \end{bmatrix},\quad \varepsilon= \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ ...\\ \varepsilon_n \end{bmatrix} \\ y=β_0+β_1x_1+...+β_kx_k称为回归平面方程 一般称{Y=+εE(ε)=0,COV(ε,ε)=σ2In为高斯马尔可夫线性模型(k元线性回归模型),并简记为(Y,,σ2In)Y= y1y2...yn ,X= 11...1x11x21...xn1x12x22...xn2............x1kx2k...xnk ,β= β0β1...βk ,ε= ε1ε2...εn y=β0+β1x1+...+βkxk称为回归平面方程

线性模型考虑的主要问题是:

  1. 用试验值(样本值)对未知参数β和σ²作点估计和假设检验,从而建立y与x1,x2,…,xk之间的数量关系;
  2. 在x1=x01,x2=x02,…,xk=x0k,处对y的值作预测与控制,即对y作区间估计

模型参数估计

对β和σ²作估计
用最小二乘法求 β 0 , . . . , β k 的估计量:作离差平方和 Q = ∑ i = 1 n ( y i − β 0 − β 1 x 1 − . . . − β k x k ) 2 选择 β 0 , . . . , β k 使 Q 达到最小解得估计值 β ′ = ( X T X ) − 1 ( X T Y ) 代入回归平面方程得: y = β 0 ′ + β 1 ′ x 1 + . . . + β k ′ x k 称为经验回归平面方程, β i ′ 称为经验回归系数 用最小二乘法求β_0,...,β_k的估计量:作离差平方和\\ Q=\sum_{i=1}^n(y_i-β_0-β_1x_1-...-β_kx_k)^2\\ 选择β_0,...,β_k使Q达到最小 解得估计值β'=(X^TX)^{-1}(X^TY)\\ 代入回归平面方程得:y=β'_0+β'_1x_1+...+β'_kx_k\\ 称为经验回归平面方程,β'_i称为经验回归系数 用最小二乘法求β0,...,βk的估计量:作离差平方和Q=i=1n(yiβ0β1x1...βkxk)2选择β0,...,βk使Q达到最小解得估计值β=(XTX)1(XTY)代入回归平面方程得:y=β0+β1x1+...+βkxk称为经验回归平面方程,βi称为经验回归系数
多项式回归
设变量 X 、 Y 的回归模型为 Y = β 0 + β 1 x + β 2 x 2 + . . . + β p x p + ε 其中 p 是已知的, β i ( i = 1 , 2 , . . . , p ) 是未知参数, ε 服从正态分布 N ( 0 , σ 2 ) Y = β 0 + β 1 x + β 2 x 2 + . . . + β p x p 称为回归多项式 上面的回归模型称为多项式回归 令 x i = x i , i = 1 , 2 , . . . , k 多项式回归模型变为多元线性回归模型 设变量X、Y的回归模型为Y=β_0+β_1x+β_2x^2+...+β_px^p+\varepsilon\\ 其中p是已知的,β_i(i=1,2,...,p)是未知参数,\varepsilon服从正态分布N(0,σ^2)\\ Y=β_0+β_1x+β_2x^2+...+β_px^p称为回归多项式\\ 上面的回归模型称为多项式回归\\ 令x_i=x^i,i=1,2,...,k多项式回归模型变为多元线性回归模型 设变量XY的回归模型为Y=β0+β1x+β2x2+...+βpxp+ε其中p是已知的,βi(i=1,2,...,p)是未知参数,ε服从正态分布N(0,σ2)Y=β0+β1x+β2x2+...+βpxp称为回归多项式上面的回归模型称为多项式回归xi=xi,i=1,2,...,k多项式回归模型变为多元线性回归模型

多元线性回归中的检验与预测

  • 线性模型和回归系数的检验

    假设H0:β0=β1=…=βk=0

    1. F检验法
      当 H 0 成立时, F = U / k Q e / ( n − k − 1 ) ∼ F ( 1 , n − k − 1 ) 其中 U = ∑ i = 1 n ( y i ′ − y ‾ ) 2 ( 回归平方和 ) Q e = ∑ i = 1 n ( y i − y i ′ ) 2 ( 残差平方和 ) 故 F > F 1 − α ( 1 , n − k − 1 ) ,拒绝 H 0 ,否则就接受 H 0 当H_0成立时,F=\frac{U/k}{Q_e/(n-k-1)}\sim F(1,n-k-1)\\ 其中U=\sum_{i=1}^{n}(y'_i-\overline{y})^2(回归平方和)\quad Q_e=\sum_{i=1}^{n}(y_i-y'_i)^2(残差平方和)\\ 故F>F_{1-α}(1,n-k-1),拒绝H_0,否则就接受H_0 H0成立时,F=Qe/(nk1)U/kF(1,nk1)其中U=i=1n(yiy)2(回归平方和)Qe=i=1n(yiyi)2(残差平方和)F>F1α(1,nk1),拒绝H0,否则就接受H0

    2. r检验法
      定义 R = U L y y = U U + Q e 为 y 与 x 1 , x 2 , . . . x k 的多元相关系数或复相关系数 由于 F = n − k − 1 k R 2 1 − R 2 , 故用 F 和用 R 检验是等效的 定义R=\sqrt{\frac{U}{L_{yy}}}=\sqrt{\frac{U}{U+Q_e}}为y与x_1,x_2,...x_k的多元相关系数或复相关系数\\ 由于F=\frac{n-k-1}{k}\frac{R^2}{1-R^2},故用F和用R检验是等效的 定义R=LyyU =U+QeU yx1,x2,...xk的多元相关系数或复相关系数由于F=knk11R2R2,故用F和用R检验是等效的

  • 预测

    1. 点预测

      求出回归方程,对于给定自变量的值,用其来预测称为点预测

    2. 区间预测
      y 的 1 − α 的预测(置信)区间为 ( y 1 ′ , y 2 ′ ) , 其中 { y 1 ′ = y ′ − σ e ′ 1 + ∑ i = 0 k ∑ j = 0 k c i j x i x j t 1 − α / 2 ( n − k − 1 ) y 2 ′ = y ′ − σ e ′ 1 + ∑ i = 0 k ∑ j = 0 k c i j x i x j t 1 − α / 2 ( n − k − 1 ) σ e ′ = Q e n − k − 1 C = L − 1 = ( c i j ) , L = X T X y的1-α的预测(置信)区间为(y'_1,y'_2),其中\\ \begin{cases} y'_1=y'-σ'_e\sqrt{1+\sum_{i=0}^{k}\sum_{j=0}^{k}c_{ij}x_ix_j}t_{1-α/2}(n-k-1) \\ y'_2=y'-σ'_e\sqrt{1+\sum_{i=0}^{k}\sum_{j=0}^{k}c_{ij}x_ix_j}t_{1-α/2}(n-k-1) \end{cases}\\ σ'_e=\sqrt{\frac{Q_e}{n-k-1}}\quad C=L^{-1}=(c_{ij}),L=X^TX y1α的预测(置信)区间为(y1,y2),其中 y1=yσe1+i=0kj=0kcijxixj t1α/2(nk1)y2=yσe1+i=0kj=0kcijxixj t1α/2(nk1)σe=nk1Qe C=L1=(cij),L=XTX

逐步回归分析

“最优”的回归方程就是包含所有对Y有影响的变量, 而不包含对Y影响不显著的变量回归方程.

选择“最优”的回归方程有以下几种方法:

  1. 从所有可能的因子(变量)组合的回归方程中选择最优者;
  2. 从包含全部变量的回归方程中逐次剔除不显著因子;
  3. 从一个变量开始,把变量逐个引入方程;
  4. “有进有出”的逐步回归分析.

以第四种方法,即逐步回归分析法在筛选变量方面较为理想.

逐步回归分析法的思想:

  • 从一个自变量开始,视自变量Y对作用的显著程度,从大到小地依次逐个引入回归方程.
  • 当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉.
  • 引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步.
  • 对于每一步都要进行Y值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量.
  • 这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止.

统计工具箱中的回归分析命令

  • 多元线性回归

    1. 确定回归系数的点估计值:b=regress(Y,X)

    2. 求回归系数的点估计和区间估计、并检验回归模型:[b, bint,r,rint,stats]=regress(Y,X,alpha)

      bint:回归系数的区间估计

      r:残差

      rint:置信区间

      stats:用于检验回归模型的统计量,有三个数值:相关系数r²、F值、与F对应的概率p

      ​ 相关系数r²越接近1,说明回归方程越显著;F>F1-α(k,n-k-1)时拒绝H0,F越大,说明回归方程越显著;与F对应的 概率p<α时拒绝H0,回归模型成立

      alpha:显著性水平(缺省时为0.05)

    3. 画出残差及其置信区间:rcoplot(r ,rint)

    4. 预测及作图:z=b(1)+b(2)* plot(x,Y,‘k+’,x,z,‘r’)

  • 多项式回归

    • 一元多项式回归
      y = a 1 x m + a 2 x m − 1 + . . . + a m x + a m + 1 y=a_1x^m+a_2x^{m-1}+...+a_mx+a_{m+1} y=a1xm+a2xm1+...+amx+am+1

      1. 回归:

        (1)确定多项式系数的命令:[p,S]=polyfit(x,y,m)

        ​ p是多项式的系数;S是一个矩阵,用来估计预测误差

        (2)一元多项式回归命令:polytool(x,y,m)

      2. 预测和预测误差估计:

        (1)Y=polyval(p,x)求polyfit所得的回归多项式在x处的预测值Y;

        (2)[Y,DELTA]=polyconf(p,x,S,alpha)求polyfit所得的回归多项式在x处的预测值Y及预测值的显著性为1-alpha的置信区间Y±DELTA;alpha缺省时为0.5

    • 多元二项式回归

      命令:rstool (x ,y ,’model’,alpha)

      ‘model’:
      l i n e a r ( 线性 ) : y = β 0 + β 1 x 1 + . . . + β m x m p u r e q u a d r a t i c ( 纯二次 ) : y = β 0 + β 1 x 1 + . . . + β m x m + ∑ j = 1 n β j j x j 2 i n t e r a c t i o n ( 交叉 ) : y = β 0 + β 1 x 1 + . . . + β m x m + ∑ 1 < = j ≠ k < = m β j k x j x k q u a d r a t i c ( 完全二次 ) : y = β 0 + β 1 x 1 + . . . + β m x m + ∑ 1 < = j , k < = m β j k x j x k linear(线性):y=β_0+β_1x_1+...+β_mx_m \\ purequadratic(纯二次):y=β_0+β_1x_1+...+β_mx_m+\sum_{j=1}^nβ_{jj}x_j^2 \\ interaction(交叉):y=β_0+β_1x_1+...+β_mx_m+\sum_{1<=j\not{=}k<=m}β_{jk}x_jx_k \\ quadratic(完全二次):y=β_0+β_1x_1+...+β_mx_m+\sum_{1<=j,k<=m}β_{jk}x_jx_k linear(线性)y=β0+β1x1+...+βmxmpurequadratic(纯二次)y=β0+β1x1+...+βmxm+j=1nβjjxj2interaction(交叉)y=β0+β1x1+...+βmxm+1<=j=k<=mβjkxjxkquadratic(完全二次)y=β0+β1x1+...+βmxm+1<=j,k<=mβjkxjxk

  • 非线性回归

    1. 回归:

      (1)确定回归系数的命令:[beta ,r ,J]=nlinfit (x,y,’model’,beta0)

      beta:估计出的回归系数

      J:Jacobi矩阵

      ’model‘:事先用M文件定义的非线性函数

      beta0:回归系数的初值

      (2) 非线性回归命令: nlintool(x,y,’model’, beta0 , alpha)

    2. 预测和预测误差估计:

      [Y,DELTA]=nlpredci(’model’, x,beta,r,J)求 nlinfit 或 lintool 所得的回归函数在x处的预测值Y及预测值的显著性水平为 1-alpha 的置信区间 Y±DELTA

  • 逐步回归

    逐步回归的命令是:stepwise (x ,y ,inmodel ,alpha )

    inmodel:矩阵的列数的指标,给出初始模型中包括的子集(缺省时设定为全部自变量)

    运行stepwise命令时产生三个图形窗口:Stepwise Plot,Stepwise Table,Stepwise History.

    在Stepwise Plot窗口,显示出各项的回归系数及其置信区间.

    Stepwise Table 窗口中列出了一个统计表,包括回归系数及其置信区间,以及模型的统计量剩余标准差 (RMSE )、相关系数(R-square)、F值、与F对应的概率P.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

L、fly

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值