在我们进行数据处理的时候,经常会遇到异常的数据点,偏离平均值或者中位数比较远的点,这种异常值我们可以通过以下三种方式进行处理:
1,3西格玛法,即计算出数据的均值以及标准差,距离均值3个标准差之外的点我们认为是异常点,大于均值加上3个标准差的点,我们将其赋值为均值加上3个标准差,小于均值减去3个标准差的点,我们将其赋值为均值减去3个标准差。
2,百分位法,我们认为97.5%分位数,以及2.5%分位数以外的点为异常点。
3,MAD法,先计算中位数,然后计算其他点离中位数的绝对距离,然后计算得到绝对距离的中位数,将该值记为MAD,则在中位数加减n个MAD以外的点,我们记为是异常点,n可以取5。
以上内容从以下链接总结得到: