平均无故障时间100万小时_花了100个小时学习线性回归,写了个万字长文作总结。...

今天这个真的长。

果子荐读

最近我们都在疯狂的学习统计学,上次碰到那个统计神图后,理解上突飞猛进。
一张神图,解决科研统计80%的问题。
但是,那张图中还缺少统计中的一个重要环节,就是线性回归。我的师弟,包子,在系统学习了接近100小时后(据他自己说是100多个小时,我这里扣除了上厕所以及吃饭的时间),写出了一个超过万字的帖子,我看了之后受益匪浅。这只是开端,他给我保证的是,再写20篇,没有问题。而我看完后,心中暗爽,20篇帖子,加起来就是2000个小时,那基本上就是专家级别了,期待。
想起来他的第一篇帖子,也很长
如果你想长时间待在实验室,那就把自己最好的设备都放在这里。
但是,跟这个比起来,只能说短。
以下是正文:


大家好,我是那个努力健身想瘦成馒头的包子,相信大家以前都被这样的问题困扰过:

那么到底什么是线性回归?它和我们熟悉的统计学方法t检验方差分析又有什么区别?

这里我们引用冯国双老师的话来帮助我们理解:

统计学初学者通常会首选接触到t检验、方差分析、线性回归等方法,不少人的感觉就是,t检验用于两组均值比较,方差分析用于多组均值比较,而线性回归则用于自变量对因变量的影响分析。看起来似乎没有什么关系,但它们却统一在一个模型下,这就是一般线性模型(General Linear Model)。一般线性模型并不是一个具体的模型,而是多种方法的统称,像t检验、方差分析、线性回归等都从属于一般线性模型的范畴。
——《白话统计》(冯国双.P22.2018)

果子插话:强烈推荐一下这本书,为了学统计,我买了大概10几本书,但是这一本,是绝对不会让你失望的。真正的白话,就像农夫山泉,入口自然,回味甘甜。

d324943ce4042aa69c72132a322a76df.png
插话结束。

我知道,不管用多么精彩的文字去解释统计学的概念肯定还是会很抽象很乏味,并且,如果我们学习一个东西不能解决我们的实际问题,我相信很快我们就会对它失去兴趣,为了让我们接下来的事情变得有趣,我们可以试图用一般线性模型(General Linear Model)来解决我们的实际问题,在这里,我们假设我们是一名妇产科医生,我们想要研究新生儿的体重会受哪些因素的影响,于是我们收集了1000位已经生产过的女性的临床资料和她们小孩出生时的体重,数据集命名为ncbirths(这个数据是R语言自带的,不需要准备)。接下来我们就可以开始我们的分析:

1.母亲的怀孕时间长短和婴儿出生时的体重有相关性吗?

在开始分析之前,首先我们要找到和婴儿出生时的体重相关的一些因素,通过我们丰富的临床经验判断,我们觉得婴儿出生时的体重和母亲怀孕时间的长短肯定会有关系,因此我们接下来就通过R语言来验证我们的猜想:

相关:就是用来描述两个变量之间的关系,例如我们想知道吸烟是否和肺癌相关或者压力是否和心血管疾病相关,但是我们并不是去操纵是否吸烟或者压力,我们只是去观察自然情况下的这个现象。至今为止,最常用的相关为皮尔逊相关,它测量的是线性关系的程度。

首先安装我们需要的R包,得到我们举例用的数据集ncbirths

install.packages("openintro")
library(openintro)
data(ncbirths)

我们已经介绍ncbirths是收集了母亲临床资料和出生后婴儿体重的一组数据,因为散点图是观察两个变量是否相关最为直观的方法,因此我们先画出weeks(母亲怀孕时间)和weight(婴儿出生时的体重)的散点图结果:

# 通过ggplot画出散点图可以很容易的可视化展示结果
library(ggplot2)
ggplot(ncbirths,aes(x = weeks, y = weight)) + 
  geom_point()
a9d22a2eef8ca1a3b4aaecf6ed68e090.png

通过散点图我们可以看到大致的趋势是随着母亲怀孕时间的增加(横坐标),婴儿出生时的体重也相应的增加(纵坐标),两变量变动方向相同,属于一个正相关的关系,但是这样判断太过主观,我们需要计算出相关系数来帮助我们更准确的判断相关性:

#因为数据中有缺失值会影响相关系数的检验,因此我们首先处理缺失值
install.packages("simputation")
#加载处理缺失值的包,方法为通过其它参照值来填补缺失值
library(simputation)  
#我们将处理后的数据仍命名为ncbirths; weeks为有缺失值数据;weight为计算缺失值平均值的参考数据
ncbirths #计算回归系数
library(tidyverse)  #加载常用数据包
ncbirths %>%
  summarize(N = n(), r = cor(weeks, weight,method ="pearson"))  #这里我们选择‘pearson’检验

想要理解这里的summarise和这个神奇的n(),可以看看这个帖子
凡是重复的,全部删掉,一个都不留!

得到结果如下,其中N是样本量,r是相关系数:

    N         r
1 1000 0.6720806

通过pearson相关检验,我们得到相关系数r为0.67(相关系数最大值为1,表示完全正相关,而且可以为负数,若为-1表示完全负相关,若为0则没有相关性),根据结果我们可以解释为:

母亲怀孕时间和婴儿出生时的体重有相关性

如果相关性系数r为1,说明A变量可以100%预测B变量,但是如果相关性系数r等于0.5,就不能说A预测B的准确率是50%,为了描述一个变量预测另外一个变量的准确率。比如我们想通过母亲怀孕时间来预测婴儿出生时的体重,我们需要把相关值平方,于是r = 0.67意味着母亲怀孕时间可以预测婴儿出生时的体重,但是预测的比例只有整体变异性的r^2 = 0.45(或45%),具体地说r^2 = 0.01时表示为较弱的相关,r^2 = 0.09表示中等相关,r^2 = 0.25或更大时表示强相关,所以这里我们可以说母亲怀孕时间和婴儿出生时的体重有较为强烈的相关性。
这部分解释来自于<>第8版,282页。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值