1、介绍
本文介绍了机器学习在市场微观结构数据和高频交易中的应用问题。机器学习是计算机科学一个充满活力的领域,它借鉴了统计学、复杂计算、人工智能、控制理论和许多其他学科的模型和方法。机器学习主要用于从大数据集中推断出良好的预测模型,因此机器学习可以很好地解决高频交易中包括交易执行和寻找alpha出现的问题。
现有关于机器学习在高频交易中的应用的研究较少,因此,我们围绕几个案例展开。这些案例包括:
● 通过强化学习优化交易
● 根据订单状态预测价格变动
● 暗池中的智能订单路由的机器学习
2、机器学习中的高频数据
目前,对于高频交易的定义仍然是主观的,对其所包含的如持有期、订单类型和策略等概念缺乏一个广泛认同的共识。然而,大多数高频交易的技术面处理都认为,高频交易的数据往往是非常细粒度的。通常来讲,这些数据是直接来自交易所的微观结构数据,详细描述了每一次下单、执行和取消,从而可以基于历史数据做到几乎完全重建整个订单。
微观结构数据面临的两大挑战是其规模和解释。在规模方面,类似于苹果(AAPL)等高流动性股票,一天的微观结构数据要以千兆字节计算,存储此数据需要压缩并使用大量存储空间。但这些仅仅是技术上的挑战,解释方面的挑战更为重要。微观数据结构包含哪些有用的信息?应用机器学习,我们可以从这些非常细粒度的、层级较低的数据中提取哪些对于构建预测模型有用的特征或变量?
3、通过强化学习优化交易
本文的第一个案例研究考察了机器学习在最基本的基于微观结构数据的算法交易问题中的应用,即优化交易执行。最简单的形式:某只股票,比如苹果(AAPL),交易量是V,时间范围或者说交易步骤数为T。目标是在交易步骤数T内买入V股股票,同时最小化支出。
我们可以观察到,在这个模型中,任何交易策略都是基于状态的。最基本的状态用符号(v, t)来表示,其中v表示余下的需要买入的股数,v ≤ V;t表示余下的交易步数,t≤T。如果我们处于v较小t较大的状态,说明已经购买了目标量的大部分,我们会考虑用更低的价格购买剩余的股票。如果我们处于v较大t较小的状态,说明我们的时间不多了,目标量还有大部分需要购买,所以应该开始跨越价差、提高流动性,以此来尽快达成目标,代价就是更高的支出。
强化学习起源于控制理论,是机器学习的一个分支,专门用于从数据中学习这种基于动态状态的策略。强化学习的应用步骤如下:
● 标记一个状态空间,其元素表示我们将在其中选择操作的可变条件。
● 标记每个状态的可行操作。本例中,这些操作包括以不同价格为所有剩余的股票量下限价订单。因此我们在任何时候都将只有一个未完成的订单,但是将根据当前状态重新设定该订单。
● 从历史数据中以概率的形式识别我们的行为所产生的影响。
● 确定一个奖励函数或成本函数,该函数反映了从给定状态采取给定操作的预期回报。在本例中,来自给定状态的限价订单的成本是订单执行的最终支出。
● 学习最优策略的算法,即从状态到行动的映射——最小化训练集的经验成本(购买股票的支出)。
● 通过测试集来评估算法的性能。
为了评估强化学习算法,我们将一次性提交策略作为基准进行对比。一次性提交策略是在交易开始时