multiple linear regression
1. 残差的诊断
▪模型为线性的假设不成立。注意,对于x的高和低值,残差是负的,对于x的中值是正的。这些残差的图是抛物线的,而不是随机的。
▪残留地块不需要以这种方式塑造,非线性关系就会存在。与近似水平残差图的任何显著偏差都可能意味着这两个变量之间存在非线性关系。
▪残差曲线呈扇形分布,表明误差方差不变(均方差)的假设不成立。
▪在图13.7(a)中注意到,x值小时误差方差较大,x值大时误差方差较小。在图13.7(b)中情况相反。
▪如果误差项不是独立的(自相关),残差图可能看起来像图13.8中的一个图形。
▪根据这些图,残差值是残差值的函数,而不是每个误差项都与相邻的误差项无关。
▪例如,一个大的正残差紧挨着一个大的正残差,一个小的负残差紧挨着一个小的负残差。
▪回归分析得到的符合假设的残差图-健康残差图-可能像图13.9所示。
▪plot在x轴上有随机分布;对于x的每个值,误差的方差大约是相等的,并且误差项似乎与相邻项没有关系。
2.多元回归模型 Multiple Regression Model
一般形式: y = β 0 + β 1 X 1 + β 2 X 2 + . . . + β k X k + ε y=β_0+β_1X_1+β_2X_2+...+β_kX_k+ε y=β0+β1X1+β2X2+...+βkXk+ε
2.1一阶多元回归模型 First–Order Multiple Regression Model
1个因变量与2个或更多自变量之间的关系是线性函数
2.2 两个自变量的一阶模型
•1个因变量和2个自变量之间的关系是一个线性函数
•模型:
E
(
Y
∣
X
1
,
X
2
)
=
/
b
e
t
a
0
+
/
b
e
t
a
1
x
1
+
/
b
e
t
a
2
x
2
E(Y|X_1, X_2) = /beta_0 + /beta_1x1 + /beta_2x2
E(Y∣X1,X2)=/beta0+/beta1x1+/beta2x2
•假设X1和X2之间没有相互作用;即,无论X2值如何,X1对E(Y|X1, X2)的影响是相同的
sample Multiple Regression Model
2.3 估计系数的解释
截距( β ^ 0 \hat{β}_0 β^0)
- Xk = 0时Y的平均值
斜率( β ^ k \hat{β}_k β^k)
- 估计Y改变β^k平均每增加1单位在Xk,保持所有其他独立变量不变。
- 如果β^1 = 2,然后销售(Y)预计将增加2平均每增加1单位的广告(X1)给销售代表的数量(X2)。
3. 一阶模型示例
你在《纽约时报》做广告。您需要找到广告大小size的影响(sq.IN.)和报纸发行量circulation(000份)上的广告回应数response(00份)。估计未知参数。
3.1系数的解释
拟合多重回归是
Y
^
=
0.06397
+
0.20492
X
1
+
0.28049
X
2
\hat{Y}= 0.06397 + 0.20492X_1 + 0.28049 X_2
Y^=0.06397+0.20492X1+0.28049X2
β^1 = 0.20492
- 每增加一个单位的广告规模,对广告有反应的数量将增加0.2049 * 100 = 20.49
β^2 = 0.28049 - 在保持广告规模不变的情况下,每增加1000单位的发行量,有反应数量平均增加100 = 28.05。
3.1 σ^2的估值
3.2 测试整体意义
表明所有X变量和Y之间是否存在线性关系
假设
- H0:β1=β2=β3=…=βk=0
- H1:至少有一个βj≠0
检验统计量
多元回归中的R^2
4.多元回归中的R^2
▪当回归中加入另一个回归因素时,
- TSS保持不变;这是数据的一个纯粹特征
- RSS无法增加:模型越大越不适合数据
- 注意,如果额外的回归系数为零,那么RSS将保持不变(即,对模型没有贡献)
▪因此,R2不能随着我们加入更多的回归项而减少,即使额外的回归项是无关的!
4.1Adjusted R^2
adjusted R2是对R2的改进措施
▪它根据模型中回归变量k的数量进行调整
▪当回归中加入另一个回归因素时,
•TSS保持不变;RSS不能增加
•n - p减少1
▪调整后的R2可能增加或减少
•如果额外的回归因子不能为模型提供更多的解释力,RSS变化不大。调整后的R2将减少!
•如果额外的回归变量对解释Y很重要,则调整后的R2会增加。当加入一个额外的回归变量时,R2不会下降。