ML4T:从想法到执行
这篇文章介绍了机器学习在交易中的应用。算法交易依赖于计算机程序执行算法来自动化交易策略的某些或所有元素。机器学习涉及从数据中学习规则或模式以实现目标,如最小化预测误差。
本示例将说明如何使用机器学习算法从数据中提取信息,支持或自动化关键投资活动,包括观察市场、分析数据以形成对未来的预期并决定下单买入或卖出,以及管理由此产生的投资组合以产生相对于风险的有吸引力的回报。最终,积极投资管理的目标是产生Alpha,即超过用于评估的基准组合回报。算法交易的历史上曾更狭义地定义为自动化交易执行以尽量减少卖方提供的成本。
采取了更全面的视角,因为算法的使用普遍,尤其是机器学习,已经影响到从生成想法和从数据中提取信号到资产配置、头寸大小和测试和评估策略等更广泛的活动。本章将探讨导致机器学习成为投资行业竞争优势来源的行业趋势。我们还将探讨机器学习在投资过程中的位置,以实现算法交易策略。
内容
机器学习在投资行业的崛起
投资行业在过去几十年里发生了巨大变革,在激烈的竞争、技术进步和充满挑战的经济环境中继续发展。本节回顾了塑造整体投资环境以及算法交易和机器学习更具体应用背景的关键趋势。
推动算法交易和机器学习崛起的趋势包括:
- 市场微观结构的变化,如电子交易的普及和跨资产类别和地理区域市场的整合
- 从资产类别到风险因子敞口的投资策略框架的发展
- 计算能力、数据生成和管理以及统计方法(包括深度学习突破)的革命
- 算法交易先驱相对于人工、自主投资者的超额收益
此外,2001年和2008年的金融危机也影响了投资者的多元化和风险管理方式。其结果之一是被动投资工具交易所交易基金(ETF)的兴起。在2008年危机后央行大规模购买资产引发的低收益和低波动率环境中,注重成本的投资者将3.5万亿美元从主动管理的共同基金转移到被动管理的ETF。
竞争压力也反映在对冲基金费用的下降,从传统的年管理费2%和20%的利润分成降至2017年的平均1.48%和17.4%。
从电子交易到高频交易
自20世纪60年代开始将价格路由到计算机终端以来,电子交易在功能、交易量、资产类别覆盖和地理区域方面都有了巨大进步。
- 暗池交易和金融, CFA Institute
- 股票交易中的暗池:政策关切和最新发展, 国会研究服务, 2014
- 高频交易:最新发展概述, 国会研究服务, 2016
因子投资和智能贝塔基金
资产提供的回报是与金融投资相关的不确定性或风险的函数。例如,股票投资意味着承担公司的业务风险,债券投资意味着承担违约风险。
如果特定的风险特征能够预测回报,那么识别和预测这些风险因子的行为就成为设计投资策略的主要重点。它产生有价值的交易信号,是获得优异主动管理业绩的关键。行业对风险因子的理解已经有了很大的进步,并影响了机器学习在算法交易中的使用。
除CAPM以外解释回报的因子被纳入投资风格,这些风格倾斜投资组合偏向于一个或多个因子,资产开始转移到基于因子的投资组合。2008年金融危机突出了资产类别标签可能高度误导并产生虚假多元化感觉的方式,因为资产类别在崩盘时一起下跌。
在过去几十年中,量化因子投资已经从基于两三种风格的简单方法发展到多因子智能或异质贝塔产品。智能贝塔基金在2017年跨越了1万亿美元的资产管理规模,证明了这种兼具主动和被动管理的混合投资策略的受欢迎程度。智能贝塔基金采取被动策略,但根据一个或多个因子(如更便宜的股票或根据股息支付进行筛选)进行修改,以产生更好的回报。这种增长与传统主动管理者收取高额费用以及他们的业绩受到更严格审查的趋势相吻合。
持续发现和成功预测无论单独还是与其他风险因子结合都能显著影响跨资产类别未来资产收益的风险因子,是机器学习在投资行业激增的一个关键驱动因素,也将是本书的一个核心主题。
算法先驱超越人机
率先采用算法交易的公司的业绩记录和资产管理规模增长,在引发投资者兴趣和随后行业复制其成功方面发挥了关键作用。
主要或完全依赖算法决策的系统性策略最著名地由数学家詹姆斯·西蒙斯于1982年创立的Renaissance Technologies公司引入。它神秘的Medallion基金,对外人封闭,自1982年以来估计年化收益率为35%。
DE Shaw、Citadel和Two Sigma等三家最著名的使用系统性策略的量化对冲基金,在2017年首次进入有史以来最高20名表现最佳的基金,按投资者收益(扣除费用)和自成立以来的总收益计算。
机器学习驱动基金吸引1万亿美元资产管理规模
摩根士丹利在2017年估计,算法策略在过去6年中以15%的年增长率增长,在对冲基金、共同基金和智能贝塔ETF之间控制约1.5万亿美元。其他报告还表明,量化对冲基金行业的资产管理规模即将超过1万亿美元,自2010年以来几乎翻了一番,而传统对冲基金资金流出。相比之下,对冲基金总资本达到3.21万亿美元,根据最新的全球对冲基金研究报告。
- 全球算法交易市场将于2026年突破215.85亿美元
- 现在股市由计算机、算法和被动管理者主导, 经济学家, 2019年10月5日
量化基本面基金的兴起
主动投资管理中已经出现了两种不同的方法:系统(或量化)和自主投资。系统方法依赖于算法,采用可重复和数据驱动的方法来识别许多证券的投资机会;相比之下,自主方法涉及对少数证券进行深入分析。这两种方法正变得更加相似,因为基本面交易者采取了更多的数据科学驱动方法。
即使是基本面交易者现在也配备了量化技术,占据了550亿美元的系统资产,根据巴克莱的数据。不关注特定公司,量化基金交易跨越大量证券的模式和动态。根据巴克莱汇编的数据,量化基金现在占对冲基金总资产的17%。
机器学习和替代数据
对冲基金长期通过信息优势和发现新的无相关信号来寻求Alpha。历史上,这包括了诸如提前调查购物者或选民投票等。偶尔,使用公司内部人士、医生和专家网络来扩大对行业趋势或公司的了解会越过法律界限:2010年以来一系列交易者、投资组合经理和分析师使用内幕信息被起诉,这给行业带来了震动。
相比之下,利用常规和替代数据源使用机器学习获得的信息优势与专家和行业网络或获取公司管理层的渠道无关,而是收集大量数据并实时分析它们的能力。
三大趋势彻底改变了算法交易策略中数据的使用,可能进一步推动投资行业从自主到量化风格:
-
数字数据量指数级增长
-
计算能力和数据存储容量以较低成本的提升
-
用于分析复杂数据集的机器学习方法的进步
-
我们能否根据谷歌的搜索查询预测金融市场?, Perlin等, 2016, 《预测》杂志
设计和执行机器学习驱动的策略
机器学习可以在交易策略生命周期的多个步骤中增加价值,并依赖于关键基础设施和数据资源。因此,本书旨在解决机器学习技术如何适应设计、执行和评估策略的更广泛过程。
算法交易策略由一组Alpha因子驱动,这些因子将一个或多个数据源转化为信号,进而预测未来资产收益并触发买入或卖出订单。第2章 市场和基本面数据和第3章 面向金融的替代数据涵盖了数据的获取和管理,这是成功交易策略的原料和最重要的驱动因素。
第4章 Alpha因子研究概述了一个有方法论基础的过程,用于管理随着数据量增加而增加的虚假发现风险。第5章 策略评估为交易策略的执行和绩效测量提供了背景。
以下小节概述了这些步骤,我们将在本书中深入讨论。
好的,我继续翻译剩余部分:
获取和管理数据
数据可用性在数量、种类和速度方面的巨大变革是机器学习应用于交易的关键补充,反过来也推动了行业在获取新数据源方面的支出。然而,日益增加的数据供给需要仔细选择和管理,以发掘其潜在价值,包括以下步骤:
- 识别和评估包含不会太快衰减的Alpha信号的市场、基本面和替代数据源。
- 部署或访问基于云的可扩展数据基础设施和分析工具,如Hadoop或Spark,以促进快速、灵活的数据访问。
- 仔细管理和整理数据,以避免前瞻性偏差,调整为所需的频率并确保时点性。这意味着数据应该只反映给定时间点可用和已知的信息。在实时交易中训练的机器学习算法在使用经过扭曲的历史数据时几乎肯定会失败。
我们将在第2章 市场和基本面数据:来源和技术,以及第3章 面向金融的替代数据:类别和使用案例中详细介绍这些方面。
从Alpha因子研究到投资组合管理
Alpha因子旨在从数据中提取信号,以预测给定投资领域在交易期内的资产收益。一个因子在评估时为每个资产赋予一个单一值,但可能结合一个或多个输入变量。该过程包括以下图中概述的步骤:
交易策略工作流的研究阶段包括Alpha因子的设计、评估和组合。机器学习在这个过程中发挥了重要作用,因为随着投资者应对更简单因子信号衰减以及当前可用的丰富数据,因子的复杂性有所增加。
Alpha因子发出进场和出场信号,导致买入或卖出订单,订单执行结果是投资组合持仓。个别头寸的风险状况相互作用,形成特定的投资组合风险状况。投资组合管理涉及优化头寸权重,以实现与整体投资目标一致的所需投资组合风险和收益状况。这个过程高度动态,以纳入不断变化的市场数据。
策略回测
将投资理念纳入算法策略需要采用科学方法进行广泛测试,以尝试根据其在替代样外市场情况下的表现来否定该理念。测试可能涉及模拟数据,以捕捉被认为可能发生但历史数据未反映的情况。
交易实践中的机器学习:策略和用例
在实践中,我们将机器学习应用于交易,以满足特定的业务目标。在本节中,我们简要描述了交易策略如何演化和多样化,并概述了机器学习在实际应用中的示例,突出了它们与本书涵盖的内容的关系。
算法交易策略的演变
量化策略已经演化并变得更加复杂,经历了三个阶段:
- 在20世纪80年代和90年代,信号通常源自学术研究,使用很少的市场和基本面数据衍生输入。AQR,目前最大的量化对冲基金之一,于1998年成立,旨在大规模实施这种策略。这些信号现已基本上被商品化,并作为ETF提供,如基本的均值回归策略。
- 2000年代,基于Fama和French等开创性工作的因子投资广泛流行。基金使用算法来识别暴露于价值或动量等风险因子的资产,以寻求套利机会。2007年8月的"量化地震"导致了这些基于因子的基金的赎回,级联影响了整个行业。这些策略现在也作为长期被动的智能贝塔基金提供,根据给定的风险因子组合倾斜投资组合。
- 第三个时代由对机器学习能力和替代数据的投资推动,以产生可重复交易策略的有利信号。因子衰减是一个主要挑战:新异常的超额收益在发现到发表过程中下降了四分之一,发表后下降了50%以上,这是由于竞争和拥挤。
如今,交易者追求使用算法执行规则来实现不同的目标:
- 旨在实现有利价格的交易执行算法
- 旨在从小价格波动中获利的短期交易,例如套利
- 旨在预测其他市场参与者行为的行为策略
- 基于绝对和相对价格和收益预测的交易策略
交易中机器学习的用例
机器学习从广泛的市场、基本面和替代数据中提取信号,可以应用于算法交易策略过程的所有步骤。主要应用包括:
- 数据挖掘以识别模式、提取特征和产生洞见
- 监督学习以生成风险因子或Alpha并创造交易想法
- 将个别信号聚合成策略
- 根据算法学习的风险状况分配资产
- 使用合成数据测试和评估策略
- 使用强化学习交互式自动完善策略
我们简要介绍了其中的一些应用,并指出在后续章节中将演示它们的使用。
数据挖掘用于特征提取和洞见
以低成本有效评估大型复杂数据集需要大规模检测信号。本书中有几个相关示例:
- 信息论有助于估计候选特征的信号内容,因此对于提取监督学习算法预测资产收益的最有价值输入很有用。在第4章 金融特征工程:如何研究Alpha因子中,我们使用互信息来比较个别特征的潜在价值。De Prado(2018)第18章估计价格序列的信息含量,作为在替代交易策略之间做出选择的基础。
- 无监督学习提供了广泛的方法来识别数据中的结构,以获得洞见或帮助解决下游任务。我们提供了几个示例:
- 在第13章无监督学习:从数据驱动的风险因子到层次化风险平价中,我们介绍了聚类和降维来从高维数据集生成特征。
- 在第15章主题建模用于财报电话会议和财经新闻中,我们应用了基于贝叶斯概率的模型来概括财务文本数据。
- 在第20章用于条件风险因子的自编码器,我们使用深度学习从资产特征中提取非线性风险因子,并基于Kelly等(2020)预测股票收益。
- 模型透明性:我们强调了特定于模型的洞见个别变量预测能力的方法,并介绍了一种名为SHapley Additive exPlanations(SHAP)的新颖的基于博弈论的方法。我们在第12章 提升您的交易策略和附录中将其应用于具有大量输入变量的梯度提升机。
监督学习用于Alpha因子创建和聚合
将机器学习应用于交易的最熟悉的理由是获得资产基本面、价格运动或市场状况的预测。一个策略可以利用多个构建在彼此基础上的机器学习算法:
- 下游模型可以通过整合对个别资产前景、资本市场预期和证券之间相关性的预测,在投资组合层面产生信号。
- 或者,机器学习预测可以告知自主交易,如前述的量化基本面方法。
机器学习预测还可以针对特定风险因子,如价值或波动率,或实施技术方法,如趋势跟踪或均值回归:
- 在第3章面向金融的替代数据:类别和使用案例中,我们说明了如何使用基本面数据创建输入到机器学习驱动的估值模型。
- 在第14章交易文本数据:情感分析、第15章主题建模用于财报电话会议和财经新闻和第16章提取更好的特征:用于财报电话会议和SEC备案的词嵌入中,我们使用了可用于预测公司收入(作为估值练习的输入)的商业评论替代数据。
- 在第9章从波动率预测到统计套利:时间序列模型中,我们展示了如何预测宏观变量作为市场预期的输入,以及如何预测风险因子如波动率。
- 在第19章用于交易的RNN:多元收益序列和文本数据中,我们介绍了能够在非线性时间序列数据上实现更出色性能的递归神经网络。
资产配置
机器学习已被用于基于决策树模型分配投资组合,该模型计算层次化形式的风险平价。因此,风险特征由资产价格模式而不是资产类别驱动,并实现了更优的风险收益特征。
- 在第5章投资组合优化和绩效评估和第13章无监督学习:从数据驱动的风险因子到层次化风险平价中,我们说明了层次聚类如何提取比传统资产类别定义更好反映相关模式的数据驱动风险类别(见De Prado, 2018年第16章)。
交易想法测试
回测是选择成功算法交易策略的关键步骤。将使用合成数据的交叉验证与适当的方法结合,可以在修正多重测试偏差的情况下获得可靠的样外结果。金融数据的时间序列性质需要对标准方法进行修改,以避免前瞻性偏差或以其他方式污染用于训练、验证和测试的数据。此外,历史数据的有限可用性导致了使用合成数据的替代方法:
我们将演示使用市场、基本面和替代数据对机器学习模型进行各种方法的测试,以获得可靠的样外误差估计。
在第21章用于合成训练数据的生成对抗网络中,我们介绍了能够生成高质量合成数据的生成对抗网络(GAN)。
强化学习
交易发生在一个有竞争、互动的市场中。强化学习旨在训练代理根据奖励学习策略函数;它通常被认为是金融机器学习最有前景的领域之一。参见Hendricks和Wilcox(2014)以及Nevmyvaka、Feng和Kearns(2006)关于交易执行的应用。
- 在第22章深度强化学习:构建交易智能体中,我们将展示Q-learning等关键强化算法,演示如何使用OpenAI的Gym环境训练交易的强化算法。
资源和参考文献
学术研究
- 主动管理的基本法则, Richard C. Grinold, 《投资组合管理杂志》1989年春季, 15 (3) 30-37
- 普通股市值与收益的关系, Rolf Banz,《金融经济学杂志》, 1981年3月
- 套利定价理论:一些经验结果, Marc Reinganum, 《金融学》, 1981
- 收益率、市值和纽约证券交易所普通股回报的关系, Sanjoy Basu, 《金融经济学杂志》, 1982
- 弥合金融市场预测的鸿沟:机器学习者vs金融经济学家, 《专家系统与应用》, 2016
- 金融时间序列预测与深度学习:系统文献综述:2005-2019, arXiv:1911.13288 [cs, q-fin, stat], 2019
- 基于机器学习的经验资产定价, 《金融研究》