【定量分析、量化金融与统计学】R语言：多元线性回归实例

最新推荐文章于 2024-05-10 17:08:22 发布

旋转跳跃我闭着眼

最新推荐文章于 2024-05-10 17:08:22 发布

阅读量5.5k

点赞数 7

分类专栏：量化分析数据分析定量分析文章标签：数据分析

本文链接：https://blog.csdn.net/qq_34414054/article/details/124118999

版权

R语言多元线性回归度假村排名显著性检验自变量

关键词由CSDN通过智能技术生成

量化分析同时被 3 个专栏收录

21 篇文章 2 订阅

订阅专栏

数据分析

21 篇文章 3 订阅

订阅专栏

定量分析

21 篇文章 1 订阅

订阅专栏

今天来做一个R语言的多元线性回归的实例：

题目是这样的：
练习:度假村排名

旅游胜地,专门介绍高级度假和住宿的杂志《Spas》在“读者选择”评选的世界20家独立海滨精品酒店中榜上有名。所显示的数据是这些酒店根据Resorts温泉年度读者选择调查。每个分数代表了在三个标准(舒适、设施和内部餐饮)之一上认为一家酒店优秀或非常优秀的受访者的百分比。报告中还报告了总分，并用来对酒店进行排名。排名最高的酒店是穆里海滩奥德赛酒店(Muri Beach Odyssey)，总分为94.3分，其中内部餐饮得分最高，为97.7分。

需求与问题：

A.根据舒适度、设施和内部餐饮的评分，确定可用于预测总体得分的多元线性回归方程。
B.采用f检验来确定回归关系的总体显著性。0.01显著性水平下的结论是什么?
C.采用t检验来确定每个自变量的显著性。在0.01显著性水平下，每个检验的结论是什么?
D.从估计的回归方程中去除所有在0.01显著性水平上不显著的自变量。你估计的回归方程是什么？

数据集截图：

解题：

读文件并做线性回归：

ranking=read.csv(file.choose(), header=TRUE)
head(ranking)

fitmr = lm(ranking$Overall~ranking$Comfort+ranking$Amenities+ranking$In.House.Dining)
summary(fitmr)

结果：

A：估计的多元线性回归方程为：

B：模型的整体显著性:F(15.98,16)， p=0.000(另一种方式:您可以使用ANOVA表的F_value代替)与整体回归关系的F检验相关的p值为4.52386E-05。因为这个p-value小于0.01显著性水平，所以我们拒绝β1 =β 2 = β3 = 0的假设。我们得出结论，在0.01显著性水平上存在整体回归关系。

C：

（1）与估计的回归参数b1相关的p值为0.4117。
因为这个p值大于0.01显著性水平，所以我们不拒绝β1 = 0的假设。
我们的结论是，在控制设施和内部餐饮时，在0.01显著性水平上，舒适度得分和总得分之间没有关系。
（2）与估计回归参数b2相关的p值为3.69454E-05。
因为这个p值小于0.01显著性水平，所以我们拒绝β2 = 0的假设。
我们得出这样的结论:有一个分数在设施之间的关系和整体得分在0.01水平的意义,和我们最好的估计是,如果我们保持舒适和内部餐厅的分数不变,增加一个点设施对应的分数在总体得分增加了0.2443。
（3）与估计的回归参数b3相关的p值为0.0011。

最后结论：
因为这个p值小于0.01显著性水平，所以我们拒绝β3 = 0的假设。
我们认为有一个分数之间的关系内部餐饮和意义的总体得分在0.01水平,和我们最好的估计是,如果我们保持舒适和便利设施上的分数不变,增加一点分数上内部的餐厅在总分对应增加0.2443。
如果舒适、设施和内部餐饮的评分与总分相关，那么这种关系应该是正相关的。结果与对这三种关系的预期一致。

D：

fitmodi =lm(ranking$Overall~+ranking$Amenities+ranking$In.House.Dining)
summary(fitmodi)

估计的多元线性回归方程为：

模型的总体显著性:F (24.02,17)， p=0.000(另一种方式:您可以使用ANOVA表的F_value代替)与总体回归关系的F检验相关的p值为1.1123E-05。
因为这个p-value小于0.01显著性水平，所以我们拒绝β1 = β2 = β0的假设。
我们得出结论，在0.01显著性水平上存在整体回归关系。
与估计回归参数b1(现在对应于便利设施)相关的p值是1.32524E-05。
因为这个p值小于0.01显著性水平，所以我们拒绝β1 = 0的假设。
我们认为有一个分数在设施之间的关系和整体得分在0.01水平的意义,和我们最好的估计是,如果我们保持内部餐厅的分数不变,增加一点分数设施对应增加0.2526总分。
与估计回归参数b2(现在相当于内部用餐)有关的p值是0.0009。
因为这个p值小于0.01显著性水平，所以我们拒绝β2 = 0的假设。
我们认为有一个分数之间的关系内部餐饮和意义的总体得分在0.01水平,和我们最好的估计是,如果我们保持设施上的分数不变,增加一点分数内部餐厅对应增加总体得分0.2483。
对于该多元线性回归模型，整体回归关系显著，估计的回归系数b1和b2显著，符合预期。
该模型的决定系数为R2 = 0.7387。
(a)中包含三个自变量(舒适度、便利设施和内部餐饮)的模型具有R2 = 0.7498的倍数决定系数，
这模型解释了更多的变异1%多一点在样本总体评级比独立变量的模型,该模型只包括设施和内部餐厅作为一个独立变量(即删除舒适度导致损失的更多解释变异在总分的1%)。
因此，首选(d)部分中开发的更简单的多元回归模型。