数据特征分析:4.正态分布与正态性检验

本文详细介绍了正态分布的特性和正态性检验,包括直方图初步判断、QQ图检验以及K-S检验。通过这些方法,可以评估数据是否服从正态分布,其中QQ图通过对比样本分位数与标准正态分布来检验数据分布,而K-S检验则通过标准化取值与正态分布表对比来验证分布一致性。
摘要由CSDN通过智能技术生成

 

 1.正态分布

 

期望值u(均值)决定位置,标准差决定它的分布幅度,可以验证分布曲线的高矮胖瘦,越胖代表它的离中趋势越明显,越高代表它集中的值越高。

 

 

2. 正太性检验

利用观测数据判断总体是否服从正态分布的检验称为正态性检验,它是统计判决中重要的一种特殊的拟合优度假设检验

直方图初判 / QQ图判断 / K-S检验

 2.1直方图初判 

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline
#直方图判断
s = pd.DataFrame(np.random.randn(1000)+10, columns = ['value'])
print(s.head())  #创建随机数据

fig = plt.figure(figsize = (10, 6))
ax1 = fig.add_subplot(2, 1, 1)  # 创建子图1
ax1.scatter(s.index, s.values)
plt.grid() #绘制数据分布图

s = pd.DataFrame(np.random.rand(1000)+10, columns = ['value'])#这样子改下,其他不变,就是均匀分布了

ax2 = fig.add_subplot(2,1,2)  # 创建子图2
s.hist(bins=30,alpha = 0.5,ax = ax2)
s.plot(kind = 'kde', secondary_y=True,ax = ax2)
plt.grid()
# 绘制直方图
# 呈现较明显的正太性

2.2 QQ图判断


 QQ图通过把测试样本数据的分位数与已知分布相比较,从而来检验数据的分布情况

QQ图是一种散点图,对应于正态分布的QQ图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图
 参考直线:四分之一分位点四分之三分位点这两点确定,看散点是否落在这条线的附近

 绘制思路 
 ① 在做好数据清洗后,对数据进行排序(次序统计量:x(1)<x(2)<....<x(n))
 ② 排序后,计算出每个数据对应的百分位p{ i } ,即第i个数据x(i)为p(i)分位数,其中p(i)=(i-0.5)/n (pi有多重算法,这里以最常用方法为主)
 ③ 绘制直方图 + qq图,直方图作为参考

 绘制散点图,横坐标是它的分位,就是分布的位置,做下排序,看是否很多的点在某条直线上,这条直线一般是拿它的一分位和三分位做一下相减,

s = pd.DataFrame(np.random.randn(1000) + 10, columns = [
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值