金融学习之十三——数据去极值和标准化处理

最新推荐文章于 2025-03-24 13:36:21 发布

ryo007gnnu

最新推荐文章于 2025-03-24 13:36:21 发布

阅读量6.2k

点赞数 3

分类专栏：金融学习文章标签： python 数据分析 tushare

本文链接：https://blog.csdn.net/ryo007gnnu/article/details/118542669

版权

拿到数据后，数据中可能会存在一些超大或极小的值，这些值与其他的值离得较远，显得格格不入，我们称其为离群点，有时也称为异常点。对于这些值，它的存在会导致影响最终的分析结果，带偏我们的分析。举个简单的例子，10个人的收入分别为2000，2500，2300，2425，2512，2375，2700，2265，2345，10000000，只算前9个，平均值就是2380，但加上最后一个，平均值就是1002144.2，就可能严重带偏最后分析的结果。因此，对于这样的数据，我们需要将其去除或修改。
（一）数据去极值
数据去极值的方法有很多，我们介绍其中3种：绝对值差中位数法（MAD），3西格玛法和百分位法。
（1）绝对值差中位数法（MAD）
绝对值差中位数法MAD处理步骤：
• Step 1：找出所有因子的中位数𝐹𝑚𝑒𝑑𝑖𝑎𝑛；
• Step 2：得到每个因子与中位数的绝对偏差值 |𝐹𝑖 − 𝐹𝑚𝑒𝑑𝑖𝑎𝑛|；
• Step 3：得到绝对偏差值的中位数𝑀𝐴𝐷；
• Step 4：确定阈值参数 𝑛，对超出范围 [ 𝐹𝑚𝑒𝑑𝑖𝑎𝑛 − 𝑛 ⋅ 𝑀𝐴𝐷, 𝐹𝑚𝑒𝑑𝑖𝑎𝑛 + 𝑛 ⋅ 𝑀𝐴𝐷 ]的因子值做调整。

def mad(df,n):
    median=df.quantile(0.5)
    new_median=abs(df - median).quantile(0.5)
    up=median+n*new_median
    down=median-n*new_median
    print(median,up,down)
    return df.clip(down,up,axis=1)

（2）3西格玛处理步骤：
• Step 1：计算出因子的平均值𝐹𝑚𝑒𝑎𝑛与标准差𝜎；
• Step 2：确定阈值参数 𝑛（默认为3），对超出范围 𝐹𝑚𝑒𝑎𝑛 − 𝑛𝜎, 𝐹𝑚𝑒𝑎𝑛 + 𝑛𝜎 的因子值做调整.

def threesigma(df,n):
    mean=df.mean()
    std=df.std()
    up

最低0.47元/天解锁文章