机器学习在市场微观结构和高频交易中的应用

本文深入探讨了机器学习在市场微观结构和高频交易中的应用,包括通过强化学习优化交易执行、预测订单状态下的价格变动、智能订单路由在暗池中的机器学习实践。研究表明,机器学习能有效提升交易效率,降低交易成本,并在暗池交易中找到最优策略。特征设计和微调在机器学习方法的成功中起着关键作用。
摘要由CSDN通过智能技术生成

1、介绍

本文介绍了机器学习在市场微观结构数据和高频交易中的应用问题。机器学习是计算机科学一个充满活力的领域,它借鉴了统计学、复杂计算、人工智能、控制理论和许多其他学科的模型和方法。机器学习主要用于从大数据集中推断出良好的预测模型,因此机器学习可以很好地解决高频交易中包括交易执行和寻找alpha出现的问题。

现有关于机器学习在高频交易中的应用的研究较少,因此,我们围绕几个案例展开。这些案例包括:

 ● 通过强化学习优化交易

 ● 根据订单状态预测价格变动

 ● 暗池中的智能订单路由的机器学习

 

2、机器学习中的高频数据

目前,对于高频交易的定义仍然是主观的,对其所包含的如持有期、订单类型和策略等概念缺乏一个广泛认同的共识。然而,大多数高频交易的技术面处理都认为,高频交易的数据往往是非常细粒度的。通常来讲,这些数据是直接来自交易所的微观结构数据,详细描述了每一次下单、执行和取消,从而可以基于历史数据做到几乎完全重建整个订单。

微观结构数据面临的两大挑战是其规模和解释。在规模方面,类似于苹果(AAPL)等高流动性股票,一天的微观结构数据要以千兆字节计算,存储此数据需要压缩并使用大量存储空间。但这些仅仅是技术上的挑战,解释方面的挑战更为重要。微观数据结构包含哪些有用的信息?应用机器学习,我们可以从这些非常细粒度的、层级较低的数据中提取哪些对于构建预测模型有用的特征或变量?

 

3、通过强化学习优化交易

本文的第一个案例研究考察了机器学习在最基本的基于微观结构数据的算法交易问题中的应用,即优化交易执行。最简单的形式:某只股票,比如苹果(AAPL),交易量是V,时间范围或者说交易步骤数为T。目标是在交易步骤数T内买入V股股票,同时最小化支出。

我们可以观察到,在这个模型中,任何交易策略都是基于状态的。最基本的状态用符号(v, t)来表示,其中v表示余下的需要买入的股数,v ≤ V;t表示余下的交易步数,t≤T。如果我们处于v较小t较大的状态,说明已经购买了目标量的大部分,我们会考虑用更低的价格购买剩余的股票。如果我们处于v较大t较小的状态,说明我们的时间不多了,目标量还有大部分需要购买,所以应该开始跨越价差、提高流动性,以此来尽快达成目标,代价就是更高的支出。

强化学习起源于控制理论,是机器学习的一个分支,专门用于从数据中学习这种基于动态状态的策略。强化学习的应用步骤如下:

 ● 标记一个状态空间,其元素表示我们将在其中选择操作的可变条件。

 ● 标记每个状态的可行操作。本例中,这些操作包括以不同价格为所有剩余的股票量下限价订单。因此我们在任何时候都将只有一个未完成的订单,但是将根据当前状态重新设定该订单。

 ● 从历史数据中以概率的形式识别我们的行为所产生的影响。

 ● 确定一个奖励函数或成本函数,该函数反映了从给定状态采取给定操作的预期回报。在本例中,来自给定状态的限价订单的成本是订单执行的最终支出。

 ● 学习最优策略的算法,即从状态到行动的映射——最小化训练集的经验成本(购买股票的支出)。

 ● 通过测试集来评估算法的性能。

为了评估强化学习算法,我们将一次性提交策略作为基准进行对比。一次性提交策略是在交易开始时

本文解决了基于机器学习方法使用高频数据预测股票价格的问题。 我们在本文研究了两件事(1)在寻找最佳样本内经验损失最小化器的过程,根据所提出的评估措施,比较具有给定回溯参数的所选函数类之间的预测性能(2)比较在获得从交易和报价 (TAQ) 数据提取的一组引入的高频数据特征后,通过更改金融时间序列数据的采样频率来分析这些结果。 对于 TAQ 数据的分析,特征工程涉及 56 个相关特征的计算,包括市场微观结构、统计和技术指标特征。 进行重新估计以提高数据模型的预测精度,以获得每个移动窗口的预测值。 另一方面,算法模型的使用无需重新估计实际问题,因为训练模型所花费的时间通常大于数据的采样频率。 此外,还引入了回溯参数来切断不相关的很久以前的历史数据。 在实验选择的函数类,结果表明 PCA 回归在给定采样频率(即 3 分钟、5 分钟等)的 NASDAQ100 指数和 TAQ 数据的平均方向准确度和简单回溯测试方面表现最好. 与之前使用 NASDAQ100 的研究相比,结果表明重新估计和正确选择的回溯参数提高了建议评估措施的预测性能。 当谈到最大回撤时,这是一个对风险管理至关重要的衡量标准,DA-RNN 呈现了最小值,因此是所有时间频率的 TAQ 数据表现最好的模型。 我们还提供了 DM 统计数据,其零假设是任何两个给定模型的预测值的准确性不会不同。 对于所有采样频率的 TAQ 数据,有证据表明在比较 PCA 回归和 DA-RNN 模型时我们不能拒绝原假设。 大量实验提供了使用高频时间序列数据正确评估最佳样本内经验损失最小化器的预测性能的见解。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值