未经授权,严禁转载
前言
在本篇论文的前半部分,作者提供了一些关于机器学习的基本概念,并指出机器学习在处理金融数据时很容易遭受过拟合的问题。作者对此提出了几种解决方法,包括结合不同的算法和信号窗口。此次推送中,译者为大家带来了论文下半部分的分析。作者提供了一个简单的例子,并成功证明结合不同的算法和训练窗口可以提高机器学习策略的表现。
上篇链接:机器学习技术能够有效用于选股吗?(上)
数据选取
表2提供了统计性描述。我们的样本包括小市值,中市值和大市值股票,平均每月5907只股票,涵盖22个发达市场。我们的因子库包括194个因子(即公司特征),这些因子来自不同来源,由IHS Markit组装。我们包括21个深度价值因子,18个相对价值因子,10个关注盈利质量的因子,26个捕捉盈利动量的因子,26个关注历史增长的因子,35个流动性因子,29个管理质量和盈利因子,以及29个技术指标价量因子。超额收益指相对美国国库券收益率的超额收益,来自Barra,且所有收益以美元计。我们的样本包括1994年至2016年的数据,从2004年开始进行前瞻性预测(允许10年的训练窗口)。预测范围和数据频率均为月度。将预测与不同视野相结合可能是有益的,但我们关注的是月度视野与典型的因子。考虑到运行时间和参数调整,我们保守地允许模型估计和交易之间有两天的间隔。
特征工程和算法选取
图2概述了每个月在前瞻分析框架中执行的一般工作流程。
首先,我们根据如下定义构建三个不同的训练集:
1、recen