数据分布的检验

对于数值型数据,在应用各种算法之前,首要做的了解一些数据的分布,然后根据情况看是否有必要对数据进行变换。了解数据的分布主要有两种手段:

  1. 从图形的层面感性的认识一下
    常用的主要有两种方式:直方图和 q-q图。 关于直方图的定义我这里不做过多解释,网上资料很多。q-q图可以参考我的一篇博文:https://blog.csdn.net/lvla_juan/article/details/97235734
    更详细的可以参考:
    https://mp.weixin.qq.com/s?__biz=MzAxMDA4NjU3OA==&mid=403375449&idx=1&sn=2fb2c79f8b272686d3908c38ad03b6b1&scene=21#wechat_redirect

  2. 从具体的数据大小理性的认识一下
    夏皮罗-威尔克检验(Shapiro-Wilk test)和科尔莫戈罗夫-斯米尔诺夫检验(Kolmogorov-Smirnov test)【针对是正态分布的检验】
    夏皮罗-威尔克检验也叫w检验。scipy的具体函数是:scipy.stats.shapiro。 一般认为,如果该函数返回的p-value <0.05时,则认为检验的对象不是正态分布。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值