1.正态分布
期望值u(均值)决定位置,标准差决定它的分布幅度,可以验证分布曲线的高矮胖瘦,越胖代表它的离中趋势越明显,越高代表它集中的值越高。
2. 正太性检验
利用观测数据判断总体是否服从正态分布的检验称为正态性检验,它是统计判决中重要的一种特殊的拟合优度假设检验。
直方图初判 / QQ图判断 / K-S检验
2.1直方图初判
import numpy as np import pandas as pd import matplotlib.pyplot as plt % matplotlib inline
#直方图判断 s = pd.DataFrame(np.random.randn(1000)+10, columns = ['value']) print(s.head()) #创建随机数据 fig = plt.figure(figsize = (10, 6)) ax1 = fig.add_subplot(2, 1, 1) # 创建子图1 ax1.scatter(s.index, s.values)
plt.grid() #绘制数据分布图
s = pd.DataFrame(np.random.rand(1000)+10, columns = ['value'])#这样子改下,其他不变,就是均匀分布了
ax2 = fig.add_subplot(2,1,2) # 创建子图2 s.hist(bins=30,alpha = 0.5,ax = ax2) s.plot(kind = 'kde', secondary_y=True,ax = ax2) plt.grid() # 绘制直方图 # 呈现较明显的正太性
2.2 QQ图判断
QQ图通过把测试样本数据的分位数与已知分布相比较,从而来检验数据的分布情况
QQ图是一种散点图,对应于正态分布的QQ图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图
参考直线:四分之一分位点和四分之三分位点这两点确定,看散点是否落在这条线的附近
绘制思路
① 在做好数据清洗后,对数据进行排序(次序统计量:x(1)<x(2)<....<x(n))
② 排序后,计算出每个数据对应的百分位p{ i } ,即第i个数据x(i)为p(i)分位数,其中p(i)=(i-0.5)/n (pi有多重算法,这里以最常用方法为主)
③ 绘制直方图 + qq图,直方图作为参考
绘制散点图,横坐标是它的分位,就是分布的位置,做下排序,看是否很多的点在某条直线上,这条直线一般是拿它的一分位和三分位做一下相减,
s = pd.DataFrame(np.random.randn(1000) + 10, columns = [