python 一组数据 正态分布散点图_使用 R 与 python 验证是否符合正态分布

最近太忙了,勉强利用宾馆的两个无聊的晚上,凑成了第二篇,关于正态分布的内容,正态分布是非常重要的前提,分析前需要先检验,然后看是否需要转换。

在进行真正的检验之前,我们很多时候都忽略了进行正态分布的验证。验证是否是正态分布的方法分为两类:

  • 肉眼判断

  • 假设检验

肉眼判断

肉眼判断当然是一句玩笑话,我们不能只凭看两眼数据就认定是否符合正态分布了,我们是通过其与正态分布的数据相比较,并不是直接做个大仙,看上一眼就解决问题了。那么怎么和正态分布的数据做比较呢,比较直观并且肉眼可断的当然是看图了,看数再厉害也要晕。

直方图和密度曲线的比较

第一种方法就是对数据做直方图和密度曲线的图,然后看数据是否基本符合正太分布的特征(也就是那个钟形曲线),这里网上关于 R 验证正态分布的时候使用直方图 hist,以及密度曲线要用的 density,其实二者是一回事,本质上看图还是要靠核密度估计,我们先了解一下核密度估计。

核密度估计是非参估计的一种,对我们最重要的是不需要先验知识,即可根据数据的本身特点和性质来进行拟合分布,查看数据分布的特点,最简单的是使用直方图,例如对 iris 的数据的萼片长度的分布进行查看:

layout(matrix(c(1, 2, 3, 4), 2, 2, byrow = TRUE))hist(  iris$Sepal.Length,  freq = FALSE,  breaks = c(seq(4, 8, 0.05)),  main = "breaks = 0.05",  xlab = NULL)hist(  iris$Sepal.Length,  freq = FALSE,  breaks = c(seq(4, 8, 0.3)),  main = "breaks = 0.3",  xlab = NULL,  ylab = NULL)hist(  iris$Sepal.Length,  freq = FALSE,  breaks = c(seq(4, 8, 0.5)),  main = "breaks = 0.5",  xlab = "Sepal Length")hist(  iris$Sepal.Length,  freq = FALSE,  breaks = c(seq(4, 8, 0.8)),  
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值