ptrade从零开始学习量化交易第157期【ptrade量化策略研究参考--数据处理】

数据处理

更加详细的ptrade量化知识,后续会慢慢整理。

也可找寻博主历史文章,搜索关键词使用方案,比如本文涉及数据处理!

1、数据获取

我们首先要获得相应的数据基础的数据类型有四种:公司基本面数据、量价数据、宏观数据和特色数据,例如,上市公司的财务报表和十大股东高管年龄属于公司的基本面数据;股票的成交价、成交量、港口信息等等属于量价数据;国民生产总值、国债、利率属于宏观数据;像新闻舆情、电商销售额等等都属于特色数据

Img

2、数据清洗

这些数据都是构建因子的基石,在早期的量化投资机构中,由于数据质量的问题,这部分工作会占到他们甚至超过40%的时间。举例来说,对于数据中缺失值的补充就非常重要。
以部分负债计算为例,有息负债等于短期借款 + 一年内到期的长期负债 + 长期借款 + 应付债券 + 长期应付款。如果直接在上图所示的样本内加总,因为缺失值会导致最终的样本股从16个变为六个,数据缺失严重。非常有限的数据点,对因子的评估的能力就会大大折扣。

Img


所以我们在因子分析的过程中,可以选择用全体样本的该因子的均值或者该股票所属行业的均值来补充这个缺失值。面对不同的数据问题,我们需要谨慎选择不同的数据处理方法,例如对于负值的处理也是非常关键的,在后面我们会更加详细的介绍这一问题。

Img

3、数据标准化

接下来就是标准化过程,并不是所有情况下我们都需要做数据的标准化处理,但是当我们有多个因子需要研究,它们的数值分布区间差距很大。为了使我们可以通过标准化处理将它们转化到一个区间上进行分析或者组合。我们一般选择Z-score方法,它作为标准化的首选工具,是数据处理的一种常用手法,通过它能够将不同量级的数据转化为统一两组的Z-score分值进行比较。在后面的课程中,我们会对这部分再稍微展开一些,给大家详细介绍几种不同的标准化方法。

Img

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值