大岩量化：浅谈量化中的数据清洗——处理异常值

最新推荐文章于 2024-01-02 01:20:57 发布

jasper668

最新推荐文章于 2024-01-02 01:20:57 发布

阅读量1.1k

点赞数

分类专栏：量化科普文章标签：大数据后端数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jasper668/article/details/114574574

版权

本文探讨了量化研究中数据清洗的重要环节——异常值处理，介绍了泛用的截尾方法及其背后的统计假设。针对股票涨幅异常值，通过复权、新股处理和规则变化等例子，阐述了更精细的清洗策略。异常值分析不仅可以提升数据质量，还能启发事件驱动的量化策略，以弥补清洗数据的局限性。

摘要由CSDN通过智能技术生成

在量化研究中，免不了对大量数据进行研究，而在研究之前，必不可少一道工序——数据清洗。市场上的大多研究报告中，都会介绍如何清洗所用数据，但少有报告直接分析清洗步骤带来的信息改变，以及做出的研究假设。笔者试图总结常见的清洗方法，将数据清洗定义为处理异常值和缺失值，同时讨论以下几个问题：

什么是异常值和缺失值？

清洗丢失了哪些数据信息？

清洗隐含了哪些研究假设？

本主题将分为两篇小文，分别讨论异常值与缺失值。本文中，我们讨论关于异常值的清洗和假设。

什么是异常值

异常值，指的是数据中不合理的值，通常情况下，异常值的取值比较极端。异常值影响我们发现规律，我们需要分析后并去掉它们的影响。对于异常值，量化中常见的处理方法是截尾。我们先分析泛用的清洗方法，再来研究数据的特性，简单讨论股票价格里的异常值。

处理异常值的泛用方法——截尾

清洗异常值，在量化中泛用的做法是截尾。对于每个数据，定义一大一小两个数值，称之为上界和下界，把该数据中大于上界的数值变为上界；把该数据中小于下界的数值变为下界。上界和下界有两种常用定义方法，分位数法或标准差法。

分位数法：将数据排序，取其分位数为上下界，通常可以是99%和1%。

标准差法：将数据均值加减3~5个标准差，定义为上下界。

显然，截尾操作将损失值过大和值过小的数据信息。这种清洗方式隐含了哪些假设？

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。