高级统计方法 第3次作业

概念

1.问题

(a)问题(略)

e436e7d9765b450a89f6f58750fbff7e.png

关于“电视广告”的零假设是,在有电台广告和报纸广告的情况下,电视广告对销售没有影响。

“电台广告”的零假设是,在有电视和报纸广告的前提下,电台广告对销售没有影响。

“报纸广告”的零假设是,在有电视和电台广告的前提下,报纸广告对销售没有影响。

电视和电台的p值小于0.0001,带表我们拒绝假设,即原假设是错误的。

报纸的p值0.8599,代表我们接受原假设,原假设为真。

3.问题(略)

Y = 50 + 20(gpa) + 0.07(iq) + 35(gender) + 0.01(gpa * iq) - 10 (gpa * gender)

(a)问题(略)

男性: (gender = 0) 50 + 20(gpa) + 0.07(iq) + 0.01(gpa * iq)

女性: (gender = 1) 50 + 20(gpa) + 0.07(iq) + 35 + 0.01(gpa * iq) - 10 (gpa)

当gpa高的时候男性平均收入高于女性。即第三条正确。

(b)问题(略)

= 50 + 20 * 4 + 0.07 * 110 + 35 + 0.01 (4 * 110) - 10 * 4

= 137.1

(c)问题(略)

错误的。我们应当使用统计学方法进行估计,比如使用p值进行判断。

4.

(a)

三次回归的训练RSS比线性回归的RSS小。因为多次回归的结果与实际值会更加契合。

(b)

测试误差三次回归的RSS比线性回归的RSS大。因为过度训练会导致更多的错误。

(c)

三次回归的RSS低于线性回归的RSS。因为三次回归更加灵活,无论潜在的真正关系是什么,更灵活的模型将更紧密的拟合各个点。

(d)

测试RSS难以判断,题目中没有给足够的信息,不知道实际情况,到底是偏线性还是远离线性,不同情况会影响结果。

、、、、、、

应用

8.问题(略)

(a)问题(略)

Auto = read.csv("Auto.csv", header=T, na.strings="?")
Auto = na.omit(Auto)
summary(Auto)

1cf215baba4f4a0d881b81b87e5cbfca.png

attach(Auto)
lm.fit = lm(mpg ~ horsepower)
summary(lm.fit)

2f815bbabcae4ab78d696669e7b3de28.png

  1. 预测变量和响应变量之间有关系。P值接近0,我们可以确定马力和耗油量之间有关。
  2. Mpg : Mean   :23.45

Residual standard error: 4.906,表明错误百分比是20.928%。

Multiple R-squared:  0.6059,意味着60.59%的mpg的方差可以被马力解释。

  1. 负相关
predict(lm.fit, data.frame(horsepower=c(98)), interval="confidence")

7fac14fd377f438da2ab1dcf20c14edc.png

predict(lm.fit, data.frame(horsepower=c(98)), interval="prediction")

e317de6448614c468bcc873feac758ed.png

(b)问题(略)

plot(horsepower, mpg)
abline(lm.fit)

6f83a6967e7a46538286db415e73f7c0.png

(c)问题(略)

par(mfrow=c(2,2))
plot(lm.fit)

d7bb2f3bcc84455e9dda6209bf1c3308.png

貌似该拟合并不对,根据残差图可以发现误差并不稳定,这是非线性的迹象。

11.

(a)

set.seed(1)
x = rnorm(100)
y = 2*x + rnorm(100)
lm.fit = lm(y~x+0)
summary(lm.fit)

0c3c5ed4d1464179819fb90722bd4508.png

P值接近0,因此可以拒绝零假设。

(b)

lm.fit = lm(x~y+0)
summary(lm.fit)

33fb574d5ee9434f824e4b81736290b0.png

P值接近0,因此可以拒绝零假设。

(c)

它们都来自与同一个关系

y = 2*x+ε

x = 0.5*(x+ε)

(d)

e3cabd2405664579ae01e9dd910b94e5.png

(sqrt(length(x)-1) * sum(x*y)) / (sqrt(sum(x*x) * sum(y*y) - (sum(x*y))^2))

40e5a6f854d64fad867e12809937d4e5.png

(e)

(sqrt(length(y)-1) * sum(x*y)) / (sqrt(sum(x*x) * sum(y*y) - (sum(x*y))^2))

将x与y互换发现结果一致。

(f)

lm.fit = lm(y~x)
lm.fit2 = lm(x~y)
summary(lm.fit)

fc3497d8e694403495c88db3780c5621.png

summary(lm.fit2)

51827a2418ad4baf8f2d41995ef94e9b.png

可以看到,t统计量是相同的。

13.

(a)

set.seed(1)
x = rnorm(100)

(b)

eps = rnorm(100, 0, sqrt(0.25))

(c)

y = -1 + 0.5*x + eps

向量y的长度是100,β0是-1,β1是0.5

(d)

plot(x, y)

6f3f815895924325bf208d914aab2a12.png

x和y总体上呈正相关。

(e)

lm.fit = lm(y~x)
summary(lm.fit)

86b94a599b4a49e9b3a5d51b4ac66516.png

最小二乘线性回归建立了更符合真值的模型。

(f)

plot(x, y)
abline(lm.fit, lwd=3, col=2)
abline(-1, 0.5, lwd=3, col=3)
legend(-1, legend = c("model fit", "pop. regression"), col=2:3, lwd=3)

35d14034006349b7a2ee46727ab4b0f4.png

(g)

lm.fit_sq = lm(y~x+I(x^2))
summary(lm.fit_sq)

3d8243ae98714b55bfbddfd45da25ac0.png

Y和x^2的p值说明他们并没有关系。

不能说明二次项提高了拟合度。

(h)

set.seed(1)
eps1 = rnorm(100, 0, 0.125)
x1 = rnorm(100)
y1 = -1 + 0.5*x1 + eps1
plot(x1, y1)
lm.fit1 = lm(y1~x1)
summary(lm.fit1)
abline(lm.fit1, lwd=3, col=2)
abline(-1, 0.5, lwd=3, col=3)
legend(-1, legend = c("model fit", "pop. regression"), col=2:3, lwd=3)

67e330ee6e634422b2a5251d98d0f799.png

R^2和RSE减小。

(i)

set.seed(1)
eps2 = rnorm(100, 0, 0.5)
x2 = rnorm(100)
y2 = -1 + 0.5*x2 + eps2
plot(x2, y2)
lm.fit2 = lm(y2~x2)
summary(lm.fit2)
abline(lm.fit2, lwd=3, col=2)
abline(-1, 0.5, lwd=3, col=3)
legend(-1, legend = c("model fit", "pop. regression"), col=2:3, lwd=3)

9837a5106c544943aeefe6bf491e451a.png

f19c711fc30440cc803ca8defe4958d9.png

R^2和RSE增大。

(j)

confint(lm.fit)

3f64c51c079e4fb49ddfb6629255d9c4.png

 

confint(lm.fit1)

5c24b9826f134574b71d121d13ff822f.png

confint(lm.fit2)

54a205546da741ebaadc58f5faa8b53e.png

区间范围大致是以0.5为中间。

并且区间看起来是fit>fit2>fit1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ljl2107

感谢我能帮助到你

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值