数据的回归与分类分析
文章目录
一元线性回归练习
“父亲高则儿子高,父亲矮则儿子矮”(即父亲与儿子身高相关,且为正相关)、“母高高一窝,父高高一个”(即母亲的身高比父亲的身高对子女的影响更大)的习俗传说是否成立?请在“父母子女身高”数据集(高尔顿数据集)基础上利用线性回归做出科学分析。
1)选取父子身高数据为X-Y,用Excel计算线性回归方程和相关系数、方差、p值等,判断回归方程是否成立。 现在如果有一个新家庭的数据,已知父亲身高75英寸,请测算儿子的身高为多少?
-
导入数据集
-
筛选子女性别
-
以删除重复项的那两列为坐标轴做出线性回归图
-
并得到以下的分析结果
答:对数据进行分析,相关系数R的平方反映了模型的解释能力(即该数据回归方程能解释多少方差),越接近1,说明效果越好,一般高于80%就说明模型的解释能力较好这里的R^2=0.9275,这说明父亲的身高对子女的身高的影响是线性相关。
P=1.6E-31这个值小于0.01,说明该线性方程通过了T检验。
当父亲身高为75英寸时,儿子身高69.3583英寸。
2.选取母子身高数据为X-Y,用Excel计算线性回归方程和相关系数、方差、p值等,判断回归方程是否成立。
① 线性回归分析
② 线性回归图像
分析结果:相关系数R的平方为0.3748小于80%,其解释能力较差。
P=3.46E-42这个值小于于0.01,说明该线性方程通过T检验。
从图像上看,其回归图像的趋势与数据变化趋势较契合,故其回归方程不成立。
3)根据以上数据,阐明你对习俗说法是否正确的分析。
答:习俗的说法并不完全正确,习俗主要来源于古时候的人们对他们所处的生活环境的观察,并没有太多的科学依据。
4)你能用多元线性回归方法,计算出父亲、母亲与儿子身高的回归方程吗?
多元分析结果
线性回归图
线性回归方法的有效性判别
Anscombe四重奏——数据集1
- 所用的数据
- 线性回归分析数据结果
- 线性回归图像
分析结果:相关系数R的平方为0.66654246小于80%,其解释能力较差。
均方差MS=27.51较小,说明该回归的线性拟合度较高。
P=0.025734这个值大于0.01,说明该线性方程未通过T检验。
从图像上看,其回归图像的趋势与数据变化趋势较契合,故其回归方程成立。
Anscombe四重奏——数据集2
-
所用数据
-
数据分析结果
- 线性回归图像
相关系数R的平方为0.66624小于80%,其解释能力较差。
均方差MS=27.5较小,说明该回归的线性拟合度较高。
P=0.02576这个值大于0.01,说明该线性方程未通过T检验。
从图像上看,其回归图像的趋势与数据变化趋势不契合,故其回归方程不成立
Anscombe四重奏——数据集3
1.所用数据
-
数据分析结果
-
线性回归图像
分析及结论相关系数R的平方为0.666324小于80%,其解释能力较差。
均方差MS=27.47001较小,说明该回归的线性拟合度较高。
P=0.025619这个值大于0.01,说明该线性方程未通过T检验。
从图像上看,其回归图像的趋势与数据变化趋势较契合,故其回归方程成立。
Anscombe四重奏——数据集4
1.所用数据
-
数据分析结果
-
线性回归图像
分析及结论相关系数R的平方为0.666707小于80%,其解释能力较差。
均方差MS=27.49较小,说明该回归的线性拟合度较高。
P=0.025559这个值大于0.01,说明该线性方程未通过T检验。
从图像上看,其回归图像的趋势与数据变化趋势不契合,故其回归方程不成立。
总结
多元线性回归不太会。
参考文档
Excel删除重复项
Excel作出线性回归图像
Excel数据分析结果各个数据的意义
Excel小技巧—当打开有几个表的文件却只显示一个表格的解决方法
Excel小技巧—快速选择男性或女性