Excel实现线性回归分析——高尔顿数据集、四重奏数据集

一、高尔顿数据集进行线性回归分析

(一)父母身高平均值和其中一个子女身高进行回归分析

1.对数据集的数据进行预处理
①通过Excel求每个家庭父母身高的平均值
求平均值的方法
选择平均值输出的位置,点击图中红框内容,然后输入进行计算的数据所在的位置。接着,选择所有输出平均值的区域,Ctrl+D就可以快速计算出多行的平均值。
在这里插入图片描述
②每个家庭保留一个子女的身高
选择数据->选择需要去重的区域->选择删除重复值->扩展选定区域
在这里插入图片描述
只勾选去重的列
在这里插入图片描述
2.对数据进行数据分析
选择数据->数据分析->回归->确定在这里插入图片描述
将每对夫妇的平均身高作为自变量X,他们其中一个子女的身高作为因变量Y。将对应数据的位置进行输入,并按照图中进行勾选。
在这里插入图片描述
生成图表
在这里插入图片描述
3.添加趋势线
选中数据点,右键选择添加趋势线
在这里插入图片描述
选择线性,并勾选上显示公式
在这里插入图片描述
通过选中图表的一些部分,对其参数进行一些设置,使其更具清晰具体。
最终生成图表
在这里插入图片描述
4.对相关数据的说明
通过上面的公式y=0.5702x+31.801,发现当父母身高每增加1个单位,其子女的身高平均增加0.5702个单位。
相关系数R平方计算的结果约为0.12,表面父母身高的平均值与子女身高的线性不具相关性(拟合程度不高)。通过方差分析的表格可以看出F>F表,说明数据存在显著差异。P值远小于0.01,说明得到的回归方程是可靠的。

在这里插入图片描述

(二)父亲的身高和其中一个子女身高进行回归分析

得到回归方程的方法和上面操作类似
回归结果
在这里插入图片描述
通过上面的公式y=0.2962x+49.27,发现当父母身高每增加1个单位,其子女的身高平均增加0.2962个单位。
相关系数R平方计算的结果约为0.06,表面父母身高的平均值与子女身高的线性不具相关性(拟合程度很低)。通过方差分析的表格可以看出F>F表,说明数据存在显著差异。P值远小于0.01,说明得到的回归方程是可靠的。
在这里插入图片描述
通过上面方式之间的对比,采用父母的平均身高与子女身高得到的回归方程会更好。但是此处在去除重复项的时候存在一些问题,保留下来的子女身高是家庭中子女的最大值。我想如果在子女的身高上取平均值或者是随机取其中的一个身高,进行回归分析得到的线性回归方程应该会更好拟合数据。由于对于Excel使用还不是特别熟悉,数据集比较大,做的这样步还需要一定时间,所以就没有验证想法。

(三)父亲的身高和儿子身高进行回归分析

1.对数据进行处理
筛选出儿子的身高数据行
在这里插入图片描述
在这里插入图片描述
2.进行数据回归分析
具体方法同上
回归结果
在这里插入图片描述
在这里插入图片描述

通过上面的公式y=0.2547x+49.872,发现当父亲身高每增加1个单位,其儿子的身高平均增加0.2547个单位。同时说明父亲身高和儿子身高成正相关。
相关系数R平方计算的结果约为0.7969,表面父亲身高与儿子身高的线性相关性比较高。通过方差分析的表格可以看出F>F表,说明数据存在显著差异。P值远小于0.01,说明得到的回归方程是可靠的。

(四)母亲身高和儿子身高进行回归分析

方法同上
在这里插入图片描述
通过上面的公式会发现母亲身高和儿子身高成负相关,而且相关系数R的平方很小,说明两者不具有相关性。
通过上面两者的对比,发现儿子身高跟父亲身高具有的相关性会更大。父亲身高对儿子身高是成正相关的,母亲的身高跟儿子的身高不具相关性。从数据表明,儿子的身高主要受父亲身高的影响。

二、Anscombe四重奏数据集进行线性回归分析

1.表1
从图中可以看出线性并不是很能够表现原始数据的一个变化趋势,所有该线性回归方程不成立。通过采用其他的回归曲线来测试,发现对于6次的多项式的回归方程来说,会比线性回归方程更好表现数据的变化趋势。
在这里插入图片描述
在这里插入图片描述
2.表2
从图中可以看出线性并不是很能够表现原始数据的一个变化趋势,所有该线性回归方程不成立。通过采用其他的回归曲线来测试,发现对于2次的多项式的回归方程来说,会比线性回归方程更好表现数据的变化趋势。
在这里插入图片描述
在这里插入图片描述
3.表3
从图中可以看出线性基本能够表现原始数据的一个变化趋势,只存在极少的极端数据,所有该线性回归方程基本能够体现该数据集的一个变化情况。
在这里插入图片描述
在这里插入图片描述
4.表4
从图中可以看出线性并不能表现原始数据的一个变化趋势,所有该线性回归方程不成立。可以发现数据基本上不能够用线性来描述,应该将数据自变量和因变量交换位置来进行分析,可能能够用回归数据进行分析。
在这里插入图片描述
在这里插入图片描述
从四个表的分析结果可以看出,R值,P值并不是很好可以说明回归方程是否合适。对于四组不同的数据集,却得到相同的R值,P值,但是,并不是每个都能够使用这个回归方程来说明。

小结

通过两个数据集的线性回归分析,可以发现对于得到的回归方程可以使用R值,P值来说明回归方程的好坏,但是,并不是所有数据集都能够用此说明。对于回归方程是否适用,还需要进一步的进行分析,判断,才能够说明。

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值