“MacroHFT: Memory Augmented Context-aware Reinforcement Learning On High Frequency Trading”
论文地址:https://dl.acm.org/doi/abs/10.1145/3637528.3672064
Github地址:https://github.com/ZONG0004/MacroHFT
摘要
在加密货币市场,高频交易(HFT)占据主导地位,而强化学习(RL)作为一种新兴的交易策略正逐渐受到关注。然而,现有的RL方法面临两大挑战:
- 过拟合问题,使得策略调整能力受限;
- 单一代理决策可能存在偏见,在市场极端波动时可能导致严重损失。
为此,本文提出了一种名为MacroHFT的新框架,该框架分为两个训练阶段:
- 训练一系列子代理,这些子代理能够根据市场的趋势和波动性调整自身的交易策略;
- 通过训练一个超代理来整合所有子代理的决策,形成一个更为稳健的综合策略,并采用记忆机制进一步优化决策过程。
实验结果显示,MacroHFT在分钟级别的交易中表现出色。
简介
加密货币市场由于其高波动性和24小时交易的特性,吸引了众多投资者,其中高频交易(HFT)尤为盛行。尽管强化学习(RL)在低频交易中取得了不错的效果,但在加密货币的高频交易领域,它仍需克服如忽略市场波动性、过拟合以及应对突发市场变化能力不足等挑战。为此,本文提出了一种名为MacroHFT的新策略,专门针对分钟级别的加密货币交易,并通过整合宏观市场信息来指导决策过程。首先,根据市场趋势和波动指标对市场进行分解,训练多个子代理以适应不同的市场情况;随后,通过训练一个超代理将这些子代理的策略整合起来,并利用记忆机制实现对市场变动的快速反应。该方法的主要贡献在于提出了市场分解技术、基于条件适应优化的底层策略、以及超代理的设计方案。实验结果表明,在四种主流加密货币市场上,MacroHFT的表现超越了现有的方法。
01相关工作
传统财务方法
在传统金融市场中,技术分析被广泛用于交易决策,主要依据历史价格和交易量数据。
量化交易者开发了多种技术指标以辅助交易操作:
不平衡交易量(IV):它通过衡量买入订单与卖出订单之间的差异来指示短期市场走向;
移动平均收敛发散线(MACD):该指标展示了资产价格两个移动平均线间的关系,用以预测未来的市场趋势。
然而,这些传统方法在非平稳市场环境(比如加密货币市场)中往往产生不准确的交易信号,导致其表现不尽如人意,因此受到了不少批评。
基于强化学习的方法
强化学习(RL)在量化交易领域日益受到重视,其中DQN和PPO是常用算法,并结合了多种改进技术。例如,CDQNRP通过引入随机扰动来增强DQN的训练稳定性;CLSTM-PPO则利用LSTM改善PPO的状态表示能力;DeepScalper采用后见奖励和辅助任务来优化风险管理。为了提升适应性,层次强化学习(HRL)也被引入量化交易中,如HRPM同时管理投资组合和订单执行;MetaTrader根据市场状况挑选最优策略;EarnHFT则在各种市场趋势下训练低级代理以确保稳定收益。然而,现有HRL方法面临过拟合问题,在金融环境中调整策略也较为困难,而且像MetaTrader和EarnHFT这样的系统往往依赖单一代理决策,可能导致偏颇。MacroHFT作为首个融合宏观市场信息的HRL框架,通过多标准市场分解,充分利用子代理的专业能力,实现了混合策略的应用,旨在克服上述挑战。
02预备知识
金融概念定义
- 限价单:市场参与者通过特定价格购买(出价)或出售(要价)一定量的加密货币,分别表示为( , )和( , )。
- 限价单簿(LOB):记录了所有市场参与者在同一时间点的所有买卖限价单,表示为 = {( , ), ( , )} =1。
- 开高低收量(OHLCV):描述在某一时间戳 时市场的订单执行情况,包括开盘价、最高价、最低价、收盘价及交易量,表示为 = ( , ℎ, , , )。
- 技术指标:通过一系列公式从LOB和OHLCV数据中计算得出,用于指导交易决策,表示为 = ( , , ..., −ℎ+1, −ℎ+1)。
- 持仓:指交易者在时间 持有的加密货币数量,记作 ,并且要求 ≥ 0(只允许持有多头仓位)。
- 净值:交易者的总资产价值,包括所持现金与加密货币的市场价值之和,计算公式为 = + × 。
- 高频交易目的:在于连续时间段内通过执行市场订单来最大化最终的净值 。
马尔可夫决策过程
高频交易可以被视作一个序列决策问题,并且可以通过马尔可夫决策过程(MDP)来建模,包括状态集、动作