MBA智库对3σ原则的描述:
σ代表标准差,μ代表均值
样本数据服从正态分布的情况下
数值分布在(μ-σ,μ+σ)中的概率为0.6826
数值分布在(μ-2σ,μ+2σ)中的概率为0.9544
数值分布在(μ-3σ,μ+3σ)中的概率为0.9974
可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。
在python中实现
#用numpy随机生成100个服从正态分布的随机数
num=np.random.randn(100)
#随机插入两个异常值进去,此时num.shape[0]==102
np.apend(num,[10,20])
#设定法则的左右边界
left=num.mean()-3*num.std()
right=num.mean()+3*num.std()
#获取在范围内的数据
new_num=num[(left<num)&(num<right)]
new_num.shape
#结果为100,已经剔除了刚开始插入的两个异常值