标题:Machine Learning for Stock Selection
作者:Keywan Christian Rasekhschaffe and Robert C. Jones, CFA
译者:张琨,CFA
特此说明:文章仅代表作者本人观点,不应被视为投资建议,所述观点也不一定代表CFA Institute和作者本人所在公司的看法。原文发自Financial Analysts Journal Volume 75, 2019 - Issue 3,本翻译未获CFA Institute及原作者授权,仅为学习参考之目的,请勿以任何形式进行转载。
信息披露:
Keywan Christian Rasekhschaffe是美国纽约Gresham Investment Management, LLC的高级量化策略师,Robert C. Jones, CFA,是美国新泽西州Summit System Two Advisors, LP 的董事会主席和首席投资官。
作者报告无利益冲突。
开放获取:
无
综述:
在量化金融领域,机器学习已经成为越来越重要和有争议性的话题。关于机器学习技术能否成为实用的投资工具,仍然存在激烈的争论。尽管机器学习算法可以发现微妙的,固有的和非线性的关系,但是当研究者试图从嘈杂的历史数据中提取信号时,会面对过度拟合的重大挑战。我们描述了机器学习的一些基本概念,并提供了一个简单的示例,来说明投资者如何利用机器学习技术来预测股票收益的截面,并尽可能限制过度拟合的影响。
以下为正文:
自2008年经济危机以来,使用量化因子的从业者一直在举步维艰,很多传统的因子已经不再有利可图。结果导致一些从业者试图寻找超越传统量化的选股方法。随着流行的量化因子变得越来越不可靠,很多从业者在开发可以动态的从历史数据中"学习"的模型。但是,动态模型和特定因素定时方法面对一些有效性的批评(例如,Asness 2016)。多年来,投资者一直在使用诸如回归分析之类的计量经济学技术,但很少有纯粹基于这些技术的动态模型获得了成功。原因可能是财务数据本身就有噪音,这些因子可能是多重共线性的,还有就是因子和回报之间的关系可能是动态的,非线性的和/或上下文相关的。这些特征使得线性回归模型很难估计潜在预测因子和预期收益之间的任何动态关系。
我们相信机器学习算法(MLAs)可以提供比线性模型更好的方法。这些技术已经存在很长的一段时间了。实际上,Frank Rosenblatt在1957年就发明了感知器,一种可以对图像进行分类的神经网络。在随后的几十年里,一系列的发展使得机器学习和功能的实用性得以提高:
· 自1970年代以来,计算能力的增长大致符合摩尔定律;
· 数据可用性呈指数级增长,储存成本也显著下降;
· 来自诸如计算机科学和统计学的新技术,连同计算能力和数据可用性的提高,催生了强大的新算法。
在金融以外的许多领域,机器学习算法已经被证明比传统统计技术更加有效。诸如语音识别(如Siri和Alexa的应用),图像识别(如自动驾驶)和推荐引擎(如亚马逊的应用)。深度学习算法在许多图像分类任务中已经超越了人类的准确性。在1997年,一个名为深蓝(Deep Blue)的MLA首次击败了当时的国际象棋冠军Garry Kasparov。
它通过高速计算来"蛮力"评估数以千计的可能走法和对抗走法。最近,一个名为(阿尔法零)AlphaZero的深度学习神经网络使用模式识别技术成为了国际象棋世界冠军。和深蓝被编程以评估不同位置价值的方法不同,它并没有被给予任何领域的既定知识,它只是在和自己的对弈中自学成才,在短短4个小时内就成为了国际象棋大师。
什么是机器学习?
机器学习是一系列方法和算法的总称,它允许机器在没有显性编程指令的情况下自行发现模式。在选股的案例中,建模者提供了可能有助于预测未来回报的各种因子,并使用MLAs来学习哪些因素是重要的,以及他们如何与未来回报相关。机器学习提供了一种自然的方法,将许许多多的弱信息源整合成一个比任何来源都强的复合投资信号。
近年来,计算机科学家和统计学家开发并精进了几种机器学习算法,例如梯度增强回归树,人工神经网络,随机森林和支持向量机(定义参加附录A)。这些算法大多有两个重要的性质:
1. 它们可以发现复杂的模式和隐蔽的相关性,包括非线性和上下文关系,这些关系通常很难甚至不可能用线性算法检测到。
2. 在存在多重共线性的情况下,它们通常比线性回归更加有效。
虽然关于机器学习技术在金融领域的应用研究比较活跃,但是该领域的许多论文都是侧重于某个特定算法的应用。Wang and Luo(2012)提供了使用AdaBoost算法预测股票收益的详细概述。Batres-Estrada(2015)和Takeuchi and Lee(2013)探索了利用深度学习来预测金融时间序列的方法。Moritz and Zimmerman(2016)使用树基模型来预测投资组合的收益。Wang and Luo(2014)证明了不同的训练窗口的组合预测是有效的。Heaton, Polson and Witte(2017)讨论了深度学习模型在智能索引中的应用。Alberg and Lipton(2017)提出预测公司基本面(如收益或销售)而不是回报(因为在预测基本面时信噪比更高),这使得他们可以使用复杂的机器学习模型。
一些文章研究了将非线性模型用于时间因子回归的好处。Miller, Ooi, Li, and Giamouridis (2013) and Miller, Li, Zhou, and Giamouridis (2015) 发现了在预测因子回报的时候,分类树模型比线性回归模型更加有效。他们还提出证据表明综合了线性和非线性的模型甚至更有效。此外,他们证明了包含这些因子预测的截面模型可以表现的比静态因子模型更好。我们在这项研究中得出了相似的结论,但我们使用了不同的方法。不同于明确的预测单变量多空因素投资组合的收益,我们使用了截面因子分数(特征)来预测收益的截面。
Gu, Kelly, and Xiu (2018)检验了机器学习技术在资产定价方面的有效性问题。作者使用了大量的公司特征和宏观变量来预测个股的收益。由于他们使用了总收益而不是超额收益作为因变量,他们合并预测了预期回报和股权溢价的截面。他们检验了各种机器学习方法的表现,发现和普通最小二乘回归(OLS)相比,非线性预测方法显著提升了精度。他们将这一进步归因于机器学习发现非线性模式的能力,以及它们对多线性预测器的鲁棒性(抗干扰性)。尽管我们的结论是相似的,我们只关注了与股票风险溢价无关的超额回报截面。因此,我们只使用了个股特性并排除了宏观变量。我们相信这种方法可以减少噪音和过度拟合的风险。与Gu et al. (2018)一致,我们发现许多机器学习算法的性能优于线性回归,但是相对于单个算法的性能,我们更关注与将不同算法和训练窗口相结合的好处。我们发现,预测组合的表现优于美国和其他地区的成分股。
过度拟合的危险
当模型选择了噪音而不是信号时,过度拟合就会发生。过度拟合模型有很好的样本内表现,但面对样本外数据的时候预测性就很差了。虽然机器学习技术能够揭示历史数据中的微妙模式,但过度拟合始终是一个重要挑战。当一个人在训练某种算法的时候,在数据中发现模式和能够适用于样本外同样重要。因子和回报之间的关系通常是嘈杂的,有很多潜在的因素存在,这增加了问题的维度。相比之下,很多应用了机器学习的其他领域,例如图像识别&