数据处理
更加详细的ptrade量化知识,后续会慢慢整理。
也可找寻博主历史文章,搜索关键词使用方案,比如本文涉及数据处理!
1、数据获取
我们首先要获得相应的数据基础的数据类型有四种:公司基本面数据、量价数据、宏观数据和特色数据,例如,上市公司的财务报表和十大股东高管年龄属于公司的基本面数据;股票的成交价、成交量、港口信息等等属于量价数据;国民生产总值、国债、利率属于宏观数据;像新闻舆情、电商销售额等等都属于特色数据。
2、数据清洗
这些数据都是构建因子的基石,在早期的量化投资机构中,由于数据质量的问题,这部分工作会占到他们甚至超过40%的时间。举例来说,对于数据中缺失值的补充就非常重要。
以部分负债计算为例,有息负债等于短期借款 + 一年内到期的长期负债 + 长期借款 + 应付债券 + 长期应付款。如果直接在上图所示的样本内加总,因为缺失值会导致最终的样本股从16个变为六个,数据缺失严重。非常有限的数据点,对因子的评估的能力就会大大折扣。
所以我们在因子分析的过程中,可以选择用全体样本的该因子的均值或者该股票所属行业的均值来补充这个缺失值。面对不同的数据问题,我们需要谨慎选择不同的数据处理方法,例如对于负值的处理也是非常关键的,在后面我们会更加详细的介绍这一问题。
3、数据标准化
接下来就是标准化过程,并不是所有情况下我们都需要做数据的标准化处理,但是当我们有多个因子需要研究,它们的数值分布区间差距很大。为了使我们可以通过标准化处理将它们转化到一个区间上进行分析或者组合。我们一般选择Z-score方法,它作为标准化的首选工具,是数据处理的一种常用手法,通过它能够将不同量级的数据转化为统一两组的Z-score分值进行比较。在后面的课程中,我们会对这部分再稍微展开一些,给大家详细介绍几种不同的标准化方法。