回归分析-正态分布总结

1.数据不是标准正态分布的主要原因,来源于数据的偏度和峰度。
2.处理偏度的通常方式有指数变换、对数变换和box-cox变换。
3.处理峰度的通常方式是数据的标准化。
4.另外数据的标准化,不能将偏态数据变成正态分布。
5.数据标准化的意义主要是,在回归问题中,可以使得各变量更具有可比性,同时分析结果更容易满足回归分析的残差假定
6.数据标准化只能将一个正态分布变成标准正态分布,并不能将偏态数据变成正态分布,所以,数据标准化处理的是正态分布数据峰度不等于3(标准正态分布)和正态数据的均值不为0的情况。
干货介绍:
1.来源:数据预处理:数据的正态化和标准变换
2.非线性变换QuantileTransformer和BoxCox介绍
box-cox:映射到高斯分布
QuantileTransformer:映射到均匀分布
3.正态转换步骤及方法介绍
对称分布的特点:左右对称,均值 = 中位数 = 众数,偏度 = 0
正偏分布的特点:右侧长尾,均值 >中位数 >众数,偏度 > 0
负偏分布的特点:左侧长尾,均值 < 中位数 < 众数,偏度 < 0
1、如果是中度偏态
如果偏度为其标准误差的2-3倍,可以考虑取根号值来转换。

2、如果高度偏态
如果偏度为其标准误差的3倍以上,则可以取对数,其中又可分为自然对数和以10为基数的对数。

1、偏度和峰度的标准误差与样本量直接有关。具体说来,偏度的标准误差约等于6除以n后的开方,而峰度的标准误差约等于24除以n后的开方,n为样本量。由此可见,样本量越大,标准误差越小。

2、数据的正态转化方法不是通用的,要根据不同的数据分布情况,选择合适的或创造合适的转化公式,转化后必须验证转化效果,最终达到转化的目的。

3、不是所有的非正态分布的数据都能够通过正态转化而转化为正态分布数据。非正态分布的数据也可以使用非参数方法进行分析。

4.关于右偏数据转换方法
很多右偏数据可以正态化
对数变换后呈正态分布,方差稳定
不太严重的右偏,使用平方根变换
严重右偏,倒数变换
现在对大于1 的数据整理的还是蛮好的。对于0-1之间的数【尤其是概率】,很容易找不到

5.多重共线性
 定义:

案例:
2022 SAS中国高校数据分析大赛 复赛题目-农产品期货-非正态性(双峰)数据正态化处理(sklearn)
利用LightGBM对波士顿房价进行模拟和预测-目标变量对数变换-数值变量BoxCox变换

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值