我们基于股票高频快照数据进行特征构建与分析,高质量的特征构建是后面进行模型训练,交易策略形成的重要基础。
我们已经将本文用到的全部源数据+源代码+Python环境打包好了,做到开箱即用,一键运行,感兴趣的朋友可以下载,自己多动手才是学习的最佳途径。在公众号后台回复“高频特征01”获取。
先看一下基础的高频数据样本,这是一份3秒频率的股票快照,包括了最新成交价,成交量,成交额,最高最低价,五档买卖挂单等信息。
我们选取了上证50的成分股及上证50ETF在某一天的数据进行分析,自变量是我们要构建的特征,因变量是我们要预测的目标。这里我们的目标是预测股票下一分钟的收益率。
先通过3秒快照的最新价,计算得到每个3秒快照的对数收益率,再对3秒的对数收益率进行20个时间窗口的滚动加和,得到pre_rtn20, 就是过去20个快照的收益率,将这个收益率向后平移20个快照,得到fut_rtn20,就是每个快照的1分钟后的收益率,也就是我们要预测的目标。
我们将过去20个快照的收益率pre_rtn20作为自变量,看看股票过去1分钟收益率和未来1分钟收益率之间的关系。