多元线性回归分析
概念
- 目的:作出以多个自变量估计因变量的多元线性回归方程。
- 资料:因变量为定量指标;自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。
- 用途:解释和预报。
- 意义:由于事物间的联系常常是多方面的,一个因变量的变化可能受到其它多个自变量的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。
多元线性回归模型
一般形式
y = β 0 + β 1 X 1 + β 2 X 2 + . . . β n X n + e y = β_0+β_1X_1+β_2X_2+...β_nX_n+e y=β0+β1X1+β2X2+...βnXn+e
上式表示数据中应变量Y可以近似地表示为自变量 X 1 , X 2 . . . X m X_1,X_2...X_m X1,X2...Xm的线性函数。
β 0 β_0 β0为常数项, β 1 , β 2 , . . . β m β_1,β_2,...β_m β1,β2,...βm为偏回归系数,表示在其它自变量保持不变时, X j X_j Xj增加或减少一个单位时 Y Y Y的平均变化量, e e e是去除m个自变量对 Y Y Y影响后的随机误差(残差)。
一般步骤
- 求偏回归系数 b 0 , b 1 , b 2 . . . b m b_0,b_1,b_2...b_m b0,b1,b2...bm
- Y ^ = b 0 + b 1 X + b 2 X 2 + . . . b n X m \hat{Y} = b_0+b_1X+b_2X_2+...b_nX_m Y^=b0+b1X+b2X2+...bnXm
- 检验并评价回归方程及各自变量的作用大小
多元线性回归方程的建立
例:27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于下表中,试建立血糖与其它几项指标关系的多元线性回归方程。
序号i | 总胆固醇(mmol/L) X 1 X_1 X1 | 甘油三脂(mmol/L) X 2 X_2 X2 | 胰岛素(μU/ml) X 3 X_3 X3 | 糖化血红蛋白(%) X 4 X_4 X4 | 血糖(mmol/L) Y Y Y |
---|---|---|---|---|---|
1 | 5.68 | 1.90 | 4.53 | 8.2 | 11.2 |
2 | 3.79 | 1.64 | 7.32 | 6.9 | 8.8 |
3 | 6.02 | 3.56 | 6.95 | 10.8 | 12.3 |
4 | 4.85 | 1.07 | 5.88 | 8.3 | 11.6 |
5 | 4.60 | 2.32 | 4.05 | 7.5 | 13.4 |
6 | 6.05 | 0.64 | 1.42 | 13.6 | 18.3 |
7 | 4.90 | 8.50 | 12.60 | 8.5 | 11.1 |
8 | 7.08 | 3.00 | 6.75 | 11.5 | 12.1 |
9 | 3.85 | 2.11 | 16.28 | 7.9 | 9.6 |
10 | 4.65 | 0.63 | 6.59 | 7.1 | 8.4 |
11 | 4.59 | 1.97 | 3.61 | 8.7 | 9.3 |
12 | 4.29 | 1.97 | 6.61 | 7.8 | 10.6 |
13 | 7.97 | 1.93 | 7.57 | 9.9 | 8.4 |
14 | 6.19 | 1.18 | 1.42 | 6.9 | 9.6 |
15 | 6.13 | 2.06 | 10.35 | 10.5 | 10.9 |
16 | 5.71 | 1.78 | 8.53 | 8.0 | 10.1 |
17 | 6.40 | 2.40 | 4.53 | 10.3 | 14.8 |
18 | 6.06 | 3.67 | 12.79 | 7.1 | 9.1 |
19 | 5.09 | 1.03 | 2.53 | 8.9 | 10.8 |
20 | 6.13 | 1.71 | 5.28 | 9.9 | 10.2 |
21 | 5.78 | 3.36 | 2.96 | 8.0 | 13.6 |
22 | 5.43 | 1.13 | 4.31 | 11.3 | 14.9 |
23 | 6.50 | 6.21 | 3.47 | 12.3 | 16.0 |
24 | 7.98 | 7.92 | 3.37 | 9.8 | 13.2 |
25 | 11.54 | 10.89 | 1.20 | 10.5 | 20.0 |
26 | 5.84 | 0.92 | 8.61 | 6.4 | 13.3 |
27 | 3.84 | 1.20 | 6.45 | 9.6 | 10.4 |
Q = ∑ ( Y − Y ^ ) 2 = ∑ [ Y − ( b 0 + b 1 X 1 + b 2 X 2 + ⋯ + b m X m ) ] 2 Q=\sum(Y-\hat{Y})^{2}=\sum\left[Y-\left(b_{0}+b_{1} X_{1}+b_{2} X_{2}+\cdots+b_{m} X_{m}\right)\right]^{2} Q=∑(Y−Y^)2=∑[Y−(b0+b1X1+b2X2+⋯+bmXm)]2
求偏导数↓
{ l 11 b 1 + l 12 b 2 + ⋯ + l 1 m b m = l 1 Y l 21 b 1 + l 22 b 2 + ⋯ + l 2 m b m = l 2 Y ⋯ ⋯ l m 1 b 1 + l m 2 b 2 + ⋯ + l m m b m = l m Y \left\{\begin{array}{l}{l_{11} b_{1}+l_{12} b_{2}+\cdots+l_{1 m} b_{m}=l_{1 Y}} \\ {l_{21} b_{1}+l_{22} b_{2}+\cdots+l_{2 m} b_{m}=l_{2 Y}} \\ {\cdots \cdots} \\ {l_{m 1} b_{1}+l_{m 2} b_{2}+\cdots+l_{m m} b_{m}=l_{m Y}}\end{array}\right.\\