Excel练习线性回归

高尔顿数据集练习

  • 回归现象
    英国统计学家弗朗西斯·高尔顿(Francis Galton,1822年2月16日-1911年1月17日)在研究祖先与后代身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们的父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们的父母的平均身高高。高尔顿把这种后代的身高向中间值靠近的趋势称为“回归现象”亦称“高尔顿定律”。
分析父子身高

拥有一份高尔顿数据集。
在这里插入图片描述
先筛选要用的数据。在Excel中点击数据->筛选,分析父子身高关系,筛选出儿子在这里插入图片描述
在这里插入图片描述
点击数据->数据分析,选择回归,填数据
在这里插入图片描述
可以看到结果:
在这里插入图片描述

不同的家庭父亲身高会有相同的情况,所以出现一个x自变量对应多个y因变量的情况。
其中第一个表“回归统计”中R²的值,反应了模型的解释能力,越接近于1说明效果越好。第二个表“方差分析”中F检验,可以检验方程是否有线性关系,P值小于0.01,具有线性关系。
如果现在已知一个新家庭中父亲身高为75英尺,用上面求得的回归方程
在这里插入图片描述

测算儿子的身高大约为69.068英尺。

分析母子身高

同上,可得母子身高的数据分析结果如下:
在这里插入图片描述

回归方程成立。

小结

习俗“父亲高则儿子高,父亲矮则儿子矮”、“母高高一窝,父高高一个”是成立的。由上述分析可知,子女的身高大概率上来说是父亲和母亲一起共同影响的,其中父亲的影响更大。多元线性回归分析:
在这里插入图片描述
得出的回归方程:
y=0.3785x₁+0.285x₂+22.293

Anscombe四重奏的练习

  • Anscombe(安斯科姆)四重奏
    Anscombe’s quartet 是一组数据集(x,y),它们具有相同的平均值、标准差和回归线,但在性质上不同。它经常被用来说明以图形方式查看一组数据的重要性,而不仅仅依赖于基本的统计特性。
  • Excel数据分析
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    可以看到四幅图表述的数据特征存在差异,但是他们的特征方程却相差无几,为
    在这里插入图片描述
    虽然从数据分析上来看他们的线性回归方程是成立的,但是从散点图上来看预测值和原始值差别是很大的,只建立在少数的数据分析上。因此我们在数据分析时除了关注数据是否存在明显的线性相关特征外,还应该观察离群值的数量。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值