文章目录
2020年的 Review of Financial Studies刊出了一篇名为“ Empirical Asset Pricing via Machine Learning”的文章,作者中有两位是在Booth的华人顾诗颢、修大成,另一位则是在耶鲁和 AQR任职的 Bryan Kelly。
该文对使用机器学习做实证资产定价的经典问题(即测度资产的风险溢价)进行了可比较的分析,表明使用机器学习的投资者可获得巨大的经济收益,甚至可比现有文献中基于回归的策略表现高出一倍。该文确定出最佳的模型(树和神经网络),并追踪到它们预测的增量收益来自于预测因子的交互,这恰恰是其他方法所错失的部分。所有的方法找出的最佳预测信号集是一致的,其中包含了动量、流动性、波动性的相关变量。
将机器学习应用于金融市场,在业界早已不是什么新鲜事,在量化投资领域中更是一个老生常谈的问题,它的有效性和可靠性也一直存在不少争论。而在金融学术界,之前只有寥寥数篇文章涉及到一部分机器学习中的方法,常态化地使用机器学习则是在最近才出现的苗头。从学术角度来说,该文是比较有代表性的一篇,基本上把机器学习能玩的东西全都玩了一遍。
1 为什么是机器学习?
首先,是实证资产定价领域本身的特点,让人将它和机器学习进行联想:
- 现代实证资产定价研究有两个主题,一是描述和理解不同资产的期望收益率的差异,另一个是研究总体股权风险溢价的动态特性。而测度一项资产的风险溢价,本质上是一个预测问题——风险溢价就是未来实现的超额收益率的条件期望;
- 对风险溢价来说,备选的变量集合非常大;
- 高维预测因子进入风险溢价的函数形式是不确定的。
其次,机器学习本身的特点,又使得它适用于这种不确定函数形式的问题:
- 多样性。它有各种不同的算法,可以搜索很大的函数空间;
- 它的各种算法可以对复杂的非线性关系进行近似;
- 它有参数惩罚和模型选择标准,哪怕函数形式非常广泛,也可以避免过拟合偏差和错误发现。
正是上述种种特性,让人觉得将实证资产定价与机器学习相结合是一件很自然的事情。
2 方法总览
为避免过多的公式堆积,本节仅仅对该文所用的方法做个概述。
一项资产的超额收益可表述成一个加性的预测误差模型(additive prediction error model):
r i , t + 1 = E t ( r i , t + 1 ) + ϵ i , t + 1 r_{i,t+1}=E_t(r_{i,t+1})+\epsilon_{i,t+1} ri,t+1=Et(ri,t+1)+ϵi,t+1
其中
E t ( r i , t + 1 ) = g ⋆ ( z i , t ) E_t(r_{i,t+1})=g^\star(z_{i,t}) Et(ri,t+1)=g⋆(zi,t)
也就是说,我们的目的是,分离出一个 E t ( r i , t + 1