Datawhale打卡-统计学(Day4)

线性回归

  1. 坐标系中若干点,找出一条直线y=mx+b,使这些点到该直线上同一横坐标的点的距离的平方和最小,求斜率m与截距b
  2. 在这里插入图片描述
    上面的公式其实是m,b以及 S E l i n e SE_{line} SEline组成的曲面,其中要想求得m和b,最小化平方误差就是找到曲面的最低点,故可以转化为求偏导为零的点
    在这里插入图片描述
    在这里插入图片描述
  3. 决定系数为R—Squared,如果直线的平方误差很小,意味着直线拟合的很好,这时候R-Squared接近1,相反若平方误差很大,则R-Squared就会接近0
  4. 协方差是表示两随机变量同步程度的,是这两个随机变量离各自均值距离之积的期望值
    在这里插入图片描述

卡方分布

  1. 假设 X i X_i Xi~N(0,1),i=1,…,n,且相互独立,使变量
    Q = ∑ i = 1 n X i 2 Q=\sum\nolimits_{i=1}^{n} X_i^2 Q=i=1nXi2
    则Q服从自由度为n的卡方分布
  2. 有两种卡方检验,一种是皮尔逊卡方检验,一种是列联表卡方检验

方差分析

  1. 分析数据总波动是有多少由于组内波动造成的,有多少是由于组外波动造成的
  2. 其中SST是方差的分子部分,自由度为m*n-1
  3. 还有SSW是组内平方和,也即不同分组内数据对组内均值差的平方和之和,自由度为m*(n-1),知道哥组内n-1个数据就可以求出第n个数据的值
  4. SSB为组件平方和,总波动有多少是因为组均值之间的波动,也即不同分组均值对总均值差的平方和,自由度为m-1
  5. SST的自由度等于SSB与SSW之和,由此可说明数据的总波动可以分解为两个分量的波动之和,一个是组内,一个是组间

F统计量假设检验

F统计量:[SSB/(m-1)}/{SSW/[m(n-1)]}
若分子比分母大很多,说明波动大多数来自于各组之间

因果性与相关性

存在因果性一定相关,但是相关不一定是因果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值