数据是否符合正态分布:验证及图示方式

三、数据检验与图示方式

3.1正态分布检验方式

kstest方法:KS检验,可以检验数据是否符合目标分布(正态分布、泊松分布等),也可判断两组数据是否符合同一趋势。

参数分别是:待检验的数据,检验方法(这里设置成norm正态分布),均值与标准差。

结果返回两个值:statistic → D值,pvalue → P值 

判断依据:p值大于0.05,为正态分布

3.1.1 运行

  1. import random  
  2. from scipy import stats  
  3.   
  4. def jude_KS(data):  
  5.     u =data.mean()  # 计算均值  
  6.     std=data.std() ##计算标准差  
  7.     p=stats.kstest(data, 'norm', (u, std))  
  8.     return p  

3.1.2 问题

当数据为半正态分布或者截断(截尾)正太分布时,KSTest验证方式无法区分,如下:

  1. x2=np.random.randn(100000) ##np.random.randn该函数返回一个样本,具有标准正态分布  
  2. x2_zheng=[]  
  3. for i in x2:  
  4.     if i >0:  
  5.         x2_zheng.append(i)  
  6. print(jude_KS(np.array(x2_zheng)))  
  7. plot_hist(x2_zheng,'random','x2 正数',50,None)  

3.2直方图绘制

对数据进行直方图绘制,可肉眼观察数据是否符合正态分布,或者具有正太分布趋势。图示方法对于识别半正态分布或者截断正太分布具有重要意义。

3.2.1 运行

  1. ####定义函数: 生成直方图  
  2. import matplotlib.pyplot as plt  
  3. from matplotlib import mlab  
  4. from matplotlib import rcParams  
  5. def plot_hist(x,title,name,binnum):  
  6.     plt.hist(x, bins=binnum, range=None, weights=None, cumulative=False,   
  7.          bottom=None, histtype='bar', align='mid', orientation='vertical',  
  8.          rwidth=None, log=False, color='steelblue', label='Neo_Score',   
  9.          edgecolor='black',stacked=False)  
  10.       
  11.     plt.xlabel(name)  
  12.     plt.ylabel('frequency')  
  13.     plt.title(title)  
  14.       
  15.     #plt.savefig(output_plot)  
  16.     return 'finish plot!'     
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值