回归分析残差不满足正态分布_线性回归中的正态分布

转自个人微信公众号【Memo_Cleon】的统计学习笔记:线性回归中的正态分布。

统计方法一般都有其适用的条件,或者说是必须满足的统计假设。使用线性回归需要满足线性、独立性、正态性、方差齐性、自变量间不存在多重共线、因变量为连续变量。不考虑前提条件地生搬硬套,也不对模型进行诊断,只能是“Garbage in,garbage out”。今天谈谈线性回归的正态性检验的方法论。

首先要弄清楚线性回归模型中正态分布的概念。有人在进行线性回归模型的正态性检验时,直接将对因变量进行检验,这实际上是对线性回归正态性检验的误解。线性回归模型的正态性指的是模型的残差服从均值为0方差为σ^2(标准化残差服从均数为0,方差为1)的正态分布

173d4fb5c3668d26d54be4d11bc9b075.png

当自变量为分类变量、因变量为连续变量时,也是可以采用线性回归的。只是在更多的时候,这种类型的分析我们更关注的是组间差异比较而不是线性回归预测,通常采用方差分析或者t检验,尤其是自变量只有1个对的时候。模型假定不同的组来自同一个总体中的抽样,各组(严格说应该是各个单元格)的残差服从同一个正态分布,不同组的残差均服从同一个均数为0标准差为σ2的正态分布。在实际考察的时候我们往往直接考察 固定的自变量值(不同的组)对应的因变量值是否呈正态分布。比如4个随机分组的方差分析,想要考察的分组变量即为自变量,该自变量有4个水平,可以被赋值为1、2、3、4,此时的分类自变量每个水平都有多个相同的取值,可以分别考察自变量等于1、2、3、4时对应的因变量是否满足正态分布,只有1个因素考察因变量残差与直接考察因变量是一致的。当然我们也可以采用了线性回归进行分析,为了消除赋值带来的误差,多分类的自变量在线性回归模型中需要设置成哑变量,结果同方差分析是一致的。

75202feff5fba4e316b270eaa92fa3dd.png

今天我们重点讨论的是第二种情况:当自变量为连续变量时。此时自变量每个“水平”的取值往往只有有限几个甚至只有1个,其对应的因变量观测值也只有几个甚至1个,毕竟每个自变量一次抽样只能对应一个因变量值,很显然这么小的样本量没法直接像自变量为分类变量那样考察每个“水平”的因变量值是否正态。而且连续性变量取值往往较多,即使我们的样本量足够大,自变量的每一个固定值有多个取值,这种考察正态性的工作量也会

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值