摘要
偏最小二乘法(partial least squares, PLS)是一种结合了多元线性回归、主成分分析和典型相关分析的线性回归方法。它有效克服了普通最小二乘回归的共线性问题,并且确保了每一个自变量的回归系数对因变量的解释性。本文主要介绍利用偏最小二乘法搭建多因子选股模型、构建股票组合的方法。
偏最小二乘法
偏最小二乘法是在搭建多因子选股模型时,综合多因子得到对股票收益率的最终判断的一种方法。在介绍偏最小二乘法之前,我们先来了解多因子选股模型。
01
多因子选股模型
多因子选股模型的基本思想是找到某些与股票收益率最相关的因子,并根据这些因子构建模型进行预测,寻找出预期收益率最高的投资组合。各种多因子选股模型的核心区别主要体现在两点:1.因子的选取;2.如何综合多因子得到最终判断。本文主要针对第二个区别点进行介绍。
多因子合成方法本质上就是把多维度的因子聚合成一个分数的过程。这个分数作为横截面上选股的依据。打分很多时候是通过对多因子的加权平均实现的。所以因子合成的问题就转化为了选择权重的问题。一般来说,确定权重的方法可以分为两类,一类由经济逻辑驱动,一类由数据驱动。
02
多因子合成方法——经济逻辑驱动
由经济逻辑驱动的权重的优点是简单直观,通常具有明确的经济含义。比较常见的有:
(1) 赋予各个因子相同权重。这里假设各个因子具有相同的重要性,因此赋予它们相同的权重。
(2) 根据各因子的IC均值加权合成。IC即信息系数,表示所选股票的因子值与股票下期收益率的截面相关系数,通过IC值可以判断因子值对下期收益率预测的有效性;
(3) 根据各因子的IR值加权合成。IR即信息比率,是超额收益的均值与标准差之比,IR=IC均值/IC标准差,代表因子获得稳定超额收益的能力。IR兼顾了因子预测收益率的有效性以及稳定性;
IC值和IR值反映了因子对股票收益率的预测能力,指标越高预测效果越好,对应因子被赋予的权重也越大。可以说,这些权重的确定来源于我们的先验知识,具有直观的经济含义。
有关上面几种权重优化方法更详细的介绍可参见我们社区的文章《多因子权重优化方法比较》。
02
多因子合成方法——数据驱动
数据驱动的权重并不是通过先验知识直接确定,而是通过某种算法得到的。通常这些算法都会有一个优化的目标。求权重的过程就是解优化问题的过程。这种方法的优点是能够尽可能反映数据的分布特征,减少主观随意性。但缺点也很明显,不一定每种算法所得到的权重都具有很强的可解释性和明显的经济含义。该方法常见的数学模型有以下几种:
普通最小二乘法(OLS)
普通最小二乘法是线性回归方法的一种,其优化目标是最小化预测股票收益率和真实值差的平方和。这里的因子回归系数就是我们上文提到的权重。从数学角度看,假设股票的预期收益率y是自变量(候选因子)x1, x2, ..., xk的线性函数,用方程表示为
yi是因变量的第i组观测值,xki是第k个自变量的第i个观测值,βk是xk的回归系数,εi是第i组观测值的残差项,即OLS通过调整β使各组残差项的平方和最小。
OLS比较简便、直观,但当参数估计的自变量之间存在线性相关性或称共线性的时候,采用OLS的方法估计参数将会出现病态解。股票数据包含高维度的因子,因子之间往往存在关联,此时就需要通过降