高级统计方法第3次作业

ljl2107

已于 2024-07-11 16:43:37 修改

阅读量807

点赞数 9

分类专栏：高级统计方法文章标签： kotlin 开发语言 android

于 2024-02-22 12:34:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63288666/article/details/136206527

版权

高级统计方法专栏收录该内容

5 篇文章 1 订阅

订阅专栏

概念

1.问题

（a）问题（略）

关于“电视广告”的零假设是，在有电台广告和报纸广告的情况下，电视广告对销售没有影响。

“电台广告”的零假设是，在有电视和报纸广告的前提下，电台广告对销售没有影响。

“报纸广告”的零假设是，在有电视和电台广告的前提下，报纸广告对销售没有影响。

电视和电台的p值小于0.0001，带表我们拒绝假设，即原假设是错误的。

报纸的p值0.8599，代表我们接受原假设，原假设为真。

3.问题（略）

Y = 50 + 20(gpa) + 0.07(iq) + 35(gender) + 0.01(gpa * iq) - 10 (gpa * gender)

（a）问题（略）

男性: (gender = 0) 50 + 20(gpa) + 0.07(iq) + 0.01(gpa * iq)

女性: (gender = 1) 50 + 20(gpa) + 0.07(iq) + 35 + 0.01(gpa * iq) - 10 (gpa)

当gpa高的时候男性平均收入高于女性。即第三条正确。

（b）问题（略）

= 50 + 20 * 4 + 0.07 * 110 + 35 + 0.01 (4 * 110) - 10 * 4

= 137.1

（c）问题（略）

错误的。我们应当使用统计学方法进行估计，比如使用p值进行判断。

4.

（a）

三次回归的训练RSS比线性回归的RSS小。因为多次回归的结果与实际值会更加契合。

（b）

测试误差三次回归的RSS比线性回归的RSS大。因为过度训练会导致更多的错误。

（c）

三次回归的RSS低于线性回归的RSS。因为三次回归更加灵活，无论潜在的真正关系是什么，更灵活的模型将更紧密的拟合各个点。

（d）

测试RSS难以判断，题目中没有给足够的信息，不知道实际情况，到底是偏线性还是远离线性，不同情况会影响结果。

、、、、、、

应用

8.问题（略）

（a）问题（略）

Auto = read.csv("Auto.csv", header=T, na.strings="?")

Auto = na.omit(Auto)

summary(Auto)

attach(Auto)

lm.fit = lm(mpg ~ horsepower)

summary(lm.fit)

预测变量和响应变量之间有关系。P值接近0，我们可以确定马力和耗油量之间有关。
Mpg : Mean :23.45

Residual standard error: 4.906，表明错误百分比是20.928%。

Multiple R-squared: 0.6059，意味着60.59%的mpg的方差可以被马力解释。

负相关

predict(lm.fit, data.frame(horsepower=c(98)), interval="confidence")

predict(lm.fit, data.frame(horsepower=c(98)), interval="prediction")

（b）问题（略）

plot(horsepower, mpg)

abline(lm.fit)

（c）问题（略）

par(mfrow=c(2,2))

plot(lm.fit)

貌似该拟合并不对，根据残差图可以发现误差并不稳定，这是非线性的迹象。

11．

（a）

set.seed(1)

x = rnorm(100)

y = 2*x + rnorm(100)

lm.fit = lm(y~x+0)

summary(lm.fit)

P值接近0，因此可以拒绝零假设。

（b）

lm.fit = lm(x~y+0)

summary(lm.fit)

P值接近0，因此可以拒绝零假设。

（c）

它们都来自与同一个关系

y = 2*x+ε

x = 0.5*(x+ε)

(d)

(sqrt(length(x)-1) * sum(x*y)) / (sqrt(sum(x*x) * sum(y*y) - (sum(x*y))^2))

(e)

(sqrt(length(y)-1) * sum(x*y)) / (sqrt(sum(x*x) * sum(y*y) - (sum(x*y))^2))

将x与y互换发现结果一致。

（f）

lm.fit = lm(y~x)

lm.fit2 = lm(x~y)

summary(lm.fit)

summary(lm.fit2)

可以看到，t统计量是相同的。

13.

（a）

set.seed(1)

x = rnorm(100)

(b)

eps = rnorm(100, 0, sqrt(0.25))

（c）

y = -1 + 0.5*x + eps

向量y的长度是100，β0是-1，β1是0.5

（d）

plot(x, y)

x和y总体上呈正相关。

（e）

lm.fit = lm(y~x)

summary(lm.fit)

最小二乘线性回归建立了更符合真值的模型。

（f）

plot(x, y)

abline(lm.fit, lwd=3, col=2)

abline(-1, 0.5, lwd=3, col=3)

legend(-1, legend = c("model fit", "pop. regression"), col=2:3, lwd=3)

（g）

lm.fit_sq = lm(y~x+I(x^2))

summary(lm.fit_sq)

Y和x^2的p值说明他们并没有关系。

不能说明二次项提高了拟合度。

（h）

set.seed(1)

eps1 = rnorm(100, 0, 0.125)

x1 = rnorm(100)

y1 = -1 + 0.5*x1 + eps1

plot(x1, y1)

lm.fit1 = lm(y1~x1)

summary(lm.fit1)

abline(lm.fit1, lwd=3, col=2)

abline(-1, 0.5, lwd=3, col=3)

legend(-1, legend = c("model fit", "pop. regression"), col=2:3, lwd=3)

R^2和RSE减小。

（i）

set.seed(1)

eps2 = rnorm(100, 0, 0.5)

x2 = rnorm(100)

y2 = -1 + 0.5*x2 + eps2

plot(x2, y2)

lm.fit2 = lm(y2~x2)

summary(lm.fit2)

abline(lm.fit2, lwd=3, col=2)

abline(-1, 0.5, lwd=3, col=3)

legend(-1, legend = c("model fit", "pop. regression"), col=2:3, lwd=3)

R^2和RSE增大。

（j）

confint(lm.fit)

confint(lm.fit1)

confint(lm.fit2)

区间范围大致是以0.5为中间。

并且区间看起来是fit>fit2>fit1

关注

9
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ljl2107 感谢我能帮助到你

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。