概念
1.问题
(a)问题(略)
关于“电视广告”的零假设是,在有电台广告和报纸广告的情况下,电视广告对销售没有影响。
“电台广告”的零假设是,在有电视和报纸广告的前提下,电台广告对销售没有影响。
“报纸广告”的零假设是,在有电视和电台广告的前提下,报纸广告对销售没有影响。
电视和电台的p值小于0.0001,带表我们拒绝假设,即原假设是错误的。
报纸的p值0.8599,代表我们接受原假设,原假设为真。
3.问题(略)
Y = 50 + 20(gpa) + 0.07(iq) + 35(gender) + 0.01(gpa * iq) - 10 (gpa * gender)
(a)问题(略)
男性: (gender = 0) 50 + 20(gpa) + 0.07(iq) + 0.01(gpa * iq)
女性: (gender = 1) 50 + 20(gpa) + 0.07(iq) + 35 + 0.01(gpa * iq) - 10 (gpa)
当gpa高的时候男性平均收入高于女性。即第三条正确。
(b)问题(略)
= 50 + 20 * 4 + 0.07 * 110 + 35 + 0.01 (4 * 110) - 10 * 4
= 137.1
(c)问题(略)
错误的。我们应当使用统计学方法进行估计,比如使用p值进行判断。
4.
(a)
三次回归的训练RSS比线性回归的RSS小。因为多次回归的结果与实际值会更加契合。
(b)
测试误差三次回归的RSS比线性回归的RSS大。因为过度训练会导致更多的错误。
(c)
三次回归的RSS低于线性回归的RSS。因为三次回归更加灵活,无论潜在的真正关系是什么,更灵活的模型将更紧密的拟合各个点。
(d)
测试RSS难以判断,题目中没有给足够的信息,不知道实际情况,到底是偏线性还是远离线性,不同情况会影响结果。
、、、、、、
应用
8.问题(略)
(a)问题(略)
Auto=
read.csv("Auto.csv"
,
header=T,
na.strings="?")
Auto=
na.omit(Auto)
summary(Auto)
attach(Auto)
lm.fit=
lm(mpg
~
horsepower)
summary(lm.fit)
- 预测变量和响应变量之间有关系。P值接近0,我们可以确定马力和耗油量之间有关。
- Mpg : Mean :23.45
Residual standard error: 4.906,表明错误百分比是20.928%。
Multiple R-squared: 0.6059,意味着60.59%的mpg的方差可以被马力解释。
- 负相关
predict(lm.fit,
data.frame(horsepower=c(98)),
interval="confidence")
predict(lm.fit,
data.frame(horsepower=c(98)),
interval="prediction")
(b)问题(略)
plot(horsepower,
mpg)
abline(lm.fit)
(c)问题(略)
par(mfrow=c(2,
2))
plot(lm.fit)
貌似该拟合并不对,根据残差图可以发现误差并不稳定,这是非线性的迹象。
11.
(a)
set.seed(1)
x=
rnorm(100)
y=
2*x
+
rnorm(100)
lm.fit=
lm(y~x+0)
summary(lm.fit)
P值接近0,因此可以拒绝零假设。
(b)
lm.fit=
lm(x~y+0)
summary(lm.fit)
P值接近0,因此可以拒绝零假设。
(c)
它们都来自与同一个关系
y = 2*x+ε
x = 0.5*(x+ε)
(d)
(sqrt(length(x)-1)*
sum(x*y))
/
(sqrt(sum(x*x)
*
sum(y*y)
-
(sum(x*y))^2))
(e)
(sqrt(length(y)-1)*
sum(x*y))
/
(sqrt(sum(x*x)
*
sum(y*y)
-
(sum(x*y))^2))
将x与y互换发现结果一致。
(f)
lm.fit=
lm(y~x)
lm.fit2=
lm(x~y)
summary(lm.fit)
summary(lm.fit2)
可以看到,t统计量是相同的。
13.
(a)
set.seed(1)
x=
rnorm(100)
(b)
eps=
rnorm(100
,
0,
sqrt(0.25))
(c)
y=
-1
+
0.5*x
+
eps
向量y的长度是100,β0是-1,β1是0.5
(d)
plot(x,
y)
x和y总体上呈正相关。
(e)
lm.fit=
lm(y~x)
summary(lm.fit)
最小二乘线性回归建立了更符合真值的模型。
(f)
plot(x,
y)
abline(lm.fit,
lwd=3,
col=2)
abline(-1,
0.5,
lwd=3,
col=3)
legend(-1,
legend=
c("model fit"
,
"pop. regression"),
col=2:3,
lwd=3)
(g)
lm.fit_sq=
lm(y~x+I(x^2))
summary(lm.fit_sq)
Y和x^2的p值说明他们并没有关系。
不能说明二次项提高了拟合度。
(h)
set.seed(1)
eps1=
rnorm(100
,
0,
0.125)
x1=
rnorm(100)
y1=
-1
+
0.5*x1
+
eps1
plot(x1,
y1)
lm.fit1=
lm(y1~x1)
summary(lm.fit1)
abline(lm.fit1,
lwd=3,
col=2)
abline(-1,
0.5,
lwd=3,
col=3)
legend(-1,
legend=
c("model fit"
,
"pop. regression"),
col=2:3,
lwd=3)
R^2和RSE减小。
(i)
set.seed(1)
eps2=
rnorm(100
,
0,
0.5)
x2=
rnorm(100)
y2=
-1
+
0.5*x2
+
eps2
plot(x2,
y2)
lm.fit2=
lm(y2~x2)
summary(lm.fit2)
abline(lm.fit2,
lwd=3,
col=2)
abline(-1,
0.5,
lwd=3,
col=3)
legend(-1,
legend=
c("model fit"
,
"pop. regression"),
col=2:3,
lwd=3)
R^2和RSE增大。
(j)
confint(lm.fit)
confint(lm.fit1)
confint(lm.fit2)
区间范围大致是以0.5为中间。
并且区间看起来是fit>fit2>fit1