数据分析中的概率分析经验总结：正态分布随机数&置信水平

最新推荐文章于 2024-07-27 13:56:45 发布

爱吃绿豆糕

最新推荐文章于 2024-07-27 13:56:45 发布

阅读量6.4k

点赞数

分类专栏： # 0014-数理统计文章标签：统计学

本文链接：https://blog.csdn.net/himojito/article/details/110522955

版权

1 篇文章 1 订阅

订阅专栏

一、正态分布：

非标准正态分布：先计算μ（总体平均数）& σ（标准差），然后通过换算将非标准正态分布转化为标准正态分布
标准正态分布：μ=0，σ=1—— N（0，1）
假设μ=30，σ=5，要计算P落在20<x<40概率
=P（20<x<40）
=F（40）-F（26）
=φ（（40-30）/5）-φ（（26-30）/5）
=F（2）-F（-0.8）
=0.97725-0.2119
=0.7654
上述计算过程涉及对照表可在网页工具查到：
https://www.shuxuele.com/data/standard-normal-distribution-table.html
（这个网站很好很用心，翻译自math is fun）
实际应用：很多数据的峰值变化趋势，往往符合正态分布，如果要预测数据超过XX的概率，可以
使用正态分布进行描述；再比如不同类别变化幅度不一，设置预警阈值时可以根据各自历史σ值来设置

二、置信水平

置信水平：结果落在标定区间的概率，也叫置信度，可信度
置信区间：假设抽样误差为±3%，统计结果为P=60%，则置信区间为57%-63%
样本量（计算公式）：n=Z²*σ² /d²
n：样本量
Z：正态分布中的Z统计量，如95%置信水平的Z统计量为1.96
σ：样本整体的标准差
d：置信区间的1/2，一般称为抽样误差、容许误差、调查误差
实际应用：过程指标管控中，往往需要排除样本量过小带来的不确定性，此时可选择仅考核指标的最小样本量