R语言及参考答案(4)

这次题目主要是R语言回归分析方面,包括相关性、一元线性回归方程和多元线性回归方程分析,回归方程和回归参数的假设检验,回归诊断(检验:异常值、非线性、残差、多重共线性等)。需要代做r语言作业的直接加qq1975728171.
关于包的安装等一些r语言基础知识,可以看看我另一篇的博客:r语言基础教程
R语言题目及参考答案(1):统计性描述相关题目
R语言题目及参考答案(2):统计推断相关题目
R语言题目及参考答案(3):回归分析相关题目

本文所有题目参考答案可以去我的资源下载—>>>R语言题目及参考答案(4)
本文只展示部分题目参考答案。
1.考察温度对产量的影响,测得10组数据(见表1)
表1 温度对产量的影响
在这里插入图片描述

(1)试建立X与Y之间的回归方程式;
在这里插入图片描述

回归方程式:y=9.121+0.223x
(2)对其回归方程进行显著性检验;
在这里插入图片描述

(3) 预测X=42︒C时产量的估计值及预测区间(置信度为95%).
在这里插入图片描述

估计值:18.48848 预测区间:[17.32034,19.65663]
2. 某厂生产的一种电器的年销售量Y与竞争对手的价格X1及本厂的价格X2有关。表2是10个城市中记录的资料。
(1) 建立Y与X1及X2的回归关系,并说明回归方程式在(=0.05)的水平上是否显著?并解释回归系数的含义;
在这里插入图片描述

因为0.02468<0.05,所以在(=0.05)的水平上是否显著
回归系数含义:在其他因素不变的情况下,竞争对手价格(本厂价格)变动1单位,引起年销售量平均变动量。
(2)对回归模型进行初步诊断,并指出有无可疑点或异常点?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

初步诊断,有异常点
删除异常点,再进行回归分析

在这里插入图片描述

(3) 已知某城市中本厂电器的售价X2=160元,竞争对手售价X1=170元, 使
用上述建立起来的回归模型预测该城市的年销售量;
在这里插入图片描述

预测出年销售量为93.71825
4)您能否建立系数R2>0.68的回归模型,使得模型的F检验在0.10水平上是显著的 (考虑二次项和交叉项, 用逐步回归法)。
加上二次项和交叉项
在这里插入图片描述

逐步回归
在这里插入图片描述

发现去除x1^2比较好
在这里插入图片描述

表2 10个城市某种电器的年销售量和竞争对手价格(单位:元)

  1. 为了估计山上积雪融化后对下游灌溉的影响,在山上建立一个观测站,测量最大积雪深度X与当年灌溉面积Y,测得连续10年的数据如下表3所示。
    表3 10年中最大积雪深度与当年灌溉面积的数据

(1)试画出相应的散点图,判断Y与X是否有线性关系;

初步判断有线性关系

(2)求出Y关于X的一元线性回归方程;
线性回归方程y=364.2x+141
(3)对方程作显著性检验;

(4)现测得今年的数据是X=7米,给出今年灌溉面积的预测值和相应的区间估计(=0.05) 。

预测值为2690.227公顷
区间:[2454.971,2925.484]
4. 设某公司的投资行为可用如下回归模型描述:其中,Ii为当期总投资,Fi-1为已发行股票的上期期末价值,Ki-1为上期资本存量。所得到的有关数据如下表(附件见“investment.txt”):
表4 投资行为表

(1)对模型做出参数估计,并做出经济学的说明;

如果上期期末价值和上期资本存量越高,则当期总投资就会越高。
(2)对模型估计结果进行显著性检验;

(3)如果2003年的F和K分别为5593.6和2226.3,试计算I的预测值,并求出置信度为95%的预测置信区间。

预测值:1254.848
置信区间:[1030.292,1479.405]
5. 某大型牙膏制造商为了更好地拓展商品市场,有效地管理库存,公司董事会要求销售部门根据市场调查,找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系,从而预测出在不同价格和广告费用下销售量。为此,销售部的研究人员收集了过去30个销售周期(每个销售周期为4周)公司生产的牙膏的销售量、销售价格、投入的广告费用,以及周期其他厂家生产同类牙膏的市场平均销售价格,如表9所示(数据见附件“toothpaste.txt”)。试根据这些数据建立一个函数模型,分析牙膏销售量与其他因素的关系,为制定价格策略和广告投入策略提供数量依据。
表5 牙膏销售量与销售价格、广告费用等数据

问题如下:
(1)建立牙膏销量与其他因素的回归模型;

发现diff_price都为NA

(2)对得到的线性模型做回归诊断,分析哪些样本点需要做进一步的研究;

(3)如果有需要删除的样本点,删除后再进行回归分析。
删除5,8,23

本文所有题目参考答案可以去我的资源下载—>>>R语言题目及参考答案(4)

【作业】(说明:请附上每个题的代码、作图、文字分析和描述。)
1.测得10名女中学生体重X1(kg)、胸围X2(cm)及肺活量Y(ml)的数据如下表所示,试画出Y与X1,X2的散点图,并分析它们之间的相关关系。
表6 10名女中学生体重X1(kg),胸围X2(cm)及肺活量Y(ml)的值

体重和肺活量相关的,胸围和肺活量也是相关
2. 某种水泥在凝固时放出的热量Y(cal/g)与水泥中四种化学成分X1, X2,X3, X4有关,现测得13组数据,如表7所示。
表7 水泥在凝固时放出的热量与四种化学成分

(1)希望从中选出主要变量,建立Y与它们的回归方程;

主要变量:x1,x2,x4
回归方程:y=-0.3374x1-0.2163x2+0.5214*x4-23.4962
(2)考查X1,X2,X3,X4之间是否存在多重共线性;

vif均小于10,大于5,,所以存在弱多重共线性
(3)分析用函数step( )去掉的变量是否合理。

变量x1,x2,x4的vif值变小,所以合理
3. 已知变量X与Y 的观测值如表8所示.
表8 数据表

(1)画出数据的散点图,求回归直线,同时将回归直线也画在散点图上;

回归直线为y=-1.434+1.556x

(2)对回归模型与参数分别进行F检验和t检验;

(3)画出残差(普通残差和标准残差)与预测值的残差图,分析误差是否是等方差的;

根据图像,可以看出有离群点,所以误差不是等方差
(4)修正模型,对响应变量y作开方,再完成(1)-(3)的工作.

删除24,27,28以修正模型

  1. 根据表9提供的经济数据,
    表9 我国钢材消费量及国民收入

(1)试画出散点图,判断国民收入(Y)与消费量(X)是否有线性关系;

有线性关系
(2)求出Y关于X的一元线性回归方程;
y=527.5275+0.9788x
(3)对方程作显著性检验;

(4) 现测得1981年消费量X=3441, 试给出1981年国民收入的预测值及相应的区间估计(=0.05)。

预测值:3895.506
区间估计:[3540.404,4250.609]
5.附件“GDP.txt”是5000个地区2000年的人均国内生产总值(GDP)(第一列)和人均消费水平(第二列)的统计数据。
(1) 人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者存在的关系;

(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度;

相关性很强
(3)求出估计的回归方程,解释回归系数的实际意义,并检验回归方程线性关系的显著性(α = 0.05 );

回归方程为y=194.4056+0.3022x
系数意义:当人均gdp增长1元,人均消费水平增长0.3022元,人均gdp为0时,人均消费水平为194.4056
p值十分小,线性回归具有显著性
(4 ) 如果某地区的人均GDP为5000元,预测其人均消费水平以及人均消费水平95%的置信区间和预测区间。

预测值:1705.618
区间估计:[-251.8235,3663.06]

6.某市消费人口X1(万人)、蔬菜年平均价格X2(分/kg)、瓜果年人均消费量X3(kg)、副食年人均消费量X4(kg)和粮食年人均消费量X5 (kg)是影响蔬菜需求量Y(万吨)的主要因素。调查数据如附件“demand.txt”。试用R语言对蔬菜需求量进行多元回归分析。

回归方程为:
Y=216.608709+3.049865X1-0.003255X2-3.374138X3-0.277526X4-0.995215*X5

t检验不是很理想,继续逐步回归

最终的回归方程为:Y=216.5778+2.9121X1-3.4594X3-0.2716X4-0. 0.9776X5
7. 某科学基金会的管理人员欲了解从事研究的工作人员中,高水平的数学家工资额Y与他们的研究成果(论文、著作等)的质量指标X1,从事研究工作的时间X2以及能成功获得资助的指标X3之间的关系,为此按一定的设计方案调查了24位此类型的数学家,调查数据见附件“salary.txt”
表10 24位数学家工资额及相关指标的调查数据

(1)假设误差服从分布,建立Y与X1,X2和X3之间的线性回归方程,并研究相应的统计推断问题,作相应的诊断和检验;

F检验和t检验的p值都很小,所以方程和系数都是显著的。
回归方程为:Y=16.5485+1.3263X1+0.3075X2+1.3598*X3
(2) 假定某位数学家的关于X1,X2,X3的值为,试预测他的年工资额,并给出置信度为95%的置信区间.

预测年工资额:39.25389
区间估计:[35.09013, 43.41764]

  1. 表11给出了高粱在NaCl胁迫后的萎蔫程度(Y)与若干根中蛋白(R)、叶中蛋白(L)和脯氨酸(pro)的数据。

表11高粱在NaCl胁迫后的萎蔫程度与蛋白及脯氨酸之间的关系
(1)建立萎蔫程度与其他因素的回归模型,并对回归方程和回归参数进行假设检验。

(2)对自变量进行多重共线性分析,并使用逐步回归法进行变量选择,确定最优回归模型,对最优回归模型进行假设检验。

(3)对得到的线性模型做回归诊断,分析哪些样本点需要做进一步的研究;
如果有需要删除的样本点,删除后再进行回归分析。

删除4、10、11三个点

此时F检验与t检验均有较好的结果,得到回方程:Y= 9.529e-01+ 1.867e-04R1 -7.744e-05R8+9.823e-05L3+ 4.032e-05L9
【附加题】(说明:本题源于Kaggle比赛,属于选做题,同学们根据自己的兴趣酌情选作,本题分值10分。)
使用泰坦尼克号乘客数据(见附件titanic.csv)建立线性回归模型,来预测乘客在海难中是否生存。在实际海难中,2224位乘客中有1502位遇难了。似乎有的乘客比其它乘客更有机会获救。本任务的目的就是找出哪类人更容易获救。数据表中每列说明如下,按照提示设置factor因子型向量。
在这里插入图片描述

请你利用目前学到的所有知识解决下列问题(不一定按顺序做):
(1)特征选择:观察每个特征与分类结果Survived的相关性系数,选取你认为有用的特征,进行数据清洗(缺失值、异常值),并构建一个新的数据框;tips:去掉含有缺失值的行或者使用均值、众数或者中值补充。
(2)根据上述数据框作出你认为对分析有用的图;
(3)对乘客获救进行回归分析。
(4) 在实际问题中,由于Age列缺失值过多且是相当重要的特征,不能直接去掉含有缺失值的行,缺失值填充准确率是非常重要的,一般情况下,先把Age当做因变量,其它列作为自变量,利用数据完整的行构建线性回归模型以预测Age缺失值,最后对Survived结果进行回归预测。

  • 8
    点赞
  • 83
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

皮小孩ls

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值