数据建模中利用3σ剔除异常值进行数据清洗

数据闲逛人

已于 2022-09-07 16:37:18 修改

阅读量4k

点赞数 1

分类专栏： # 【pandas 进行数据预处理】文章标签：大数据 python 开发语言

于 2022-07-06 10:04:46 首次发布

本文链接：https://blog.csdn.net/jcjic/article/details/125633332

版权

方法原理：

        3σ准则又称为拉依达准则，它是先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除。
        在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴
3σ原则：
        数值分布在（μ-σ,μ+σ)中的概率为0.6827
        数值分布在（μ-2σ,μ+2σ)中的概率为0.9544
        数值分布在（μ-3σ,μ+3σ)中的概率为0.9974
        可以认为，Y 的取值几乎全部集中在（μ-3σ,μ+3σ)区间内，超出这个范围的可能性仅占不到0.3%。

示例数据: