量化数据预处理：去极值、标准化、中性化

ikeepo

于 2019-08-28 14:21:26 发布

阅读量1.7w

点赞数 5

分类专栏： # 多因子模型文章标签：数据处理去极值中性化标准化归一化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/The_Time_Runner/article/details/100118505

版权

对于量化研究而言，拿到一份基础数据，首先需要对数据做预处理，以便于更好的探究数据规律，基于不同目标有不同处理环节，其中去极值、标准化、中性化这三点经常被放在一起讨论。整理网络资料，理解如下。

去极值

数据（单个因子的时间序列数据）中存在异常值，可能会导致拉大标准差、拉偏统计规律…

常规处理理念就是确定此数据指标（比如某个因子）的上下限阈值，然后超过（或低于）此限度的数据均设置为阈值，以提高数据结论的准确性。

上下限的判定方法有三种：MAD、 $3\sigma$ 法、百分位法。
- MAD(Median Absolute Deviation, 绝对值差中位数法)
  
  MAD，先计算所有因子与平均值之间的距离总和来检测离群值。
  - 计算所有因子的中位数 $X_{median}$
  - 计算每个因子与中位数的绝对偏差值 $X_i-X_{median}$
  - 计算绝对偏差值的中位数 $M A D$
  - 确定参数 $n$ ，从而确定合理的范围为 $X_{median}-n*MAD,X_{median}+n*MAD]$ ，针对超出合理范围的值做如下调整：

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。