“ 基金的筛选是FOF投资管理的重要环节。本文将从因子剥离模型在FOF类基金中的应用、因子剥离模型的优化两个方面,为筛选基金提供参考。 ”
FOF(Fund of Funds):基金中的基金,也称为母基金,而FOF购买的基金称为子基金。假设你投资了一只FOF,等同于你买了一个基金篮子,篮子里放了多只基金。
筛选合适的基金放入你的FOF筐里是FOF投资管理的重要环节,而母基金构建过程中通常要涉及到对子基金的风格进行剥离,以方便母基金定性的筛选和定量的计算应当包含的恰当风险暴露。本文将介绍因子剥离模型在筛选基金中的具体应用,因子剥离模型就是将基金的收益来源拆解为各类因子的风险暴露Beta和基金经理的Alpha能力,通过定量的方法对基金的超额收益进行提纯,构建筛选基金的基础。接下来我们将具体研究因子剥离模型。
本文分为两部分:
第一部分:初探“因子剥离模型”;
第二部分:“因子剥离模型”的优化。
一、初探“因子剥离模型”
1.1 在股票类基金中的应用
传统的单因子模型中,基金相对基准的超额收益就是Alpha;在多因子模型中,这个Alpha可以通过引入一些因子继续拆解,能够被因子所解释的这部分叫做因子溢价,而未被因子解释的部分则是纯Alpha。在实际应用中通常将一元回归与多元回归结合,利用传统的一元回归作为基金Alpha的研究方法,引入因子后的多元回归则用来探索基金超额收益的来源。
结合一元回归和多元回归可以剖析基金Alpha的来源和因子的稳定性,避免在FOF组合中对纳入较多相似的基金,便于构建因子暴露均衡的FOF类产品组合。
1.2 CTA类基金中的“因子剥离模型”
根据现代资产组合理论,投资组合中可以通过加入相关性低甚至负相关的资产来降低组合的风险。因此,CTA类产品与传统资产低相关性的特点,使其在构建FOF类产品时发挥了重要的配置作用。
与股票类基金产品明显的不同是,CTA类基金主要以私募产品的形式存在,而私募业绩披露尚无严格的准则,存在数据质量欠佳的现象,这就为研究CTA类产品带来一些困难。为了将更多有效的样本数据纳入分析,在实际应用过程中有两种方法:插值法、匹配法。
股票类多因素模型与CTA类多因素模型在应用过程中的区别在于,股票类多因素模型是已知因子敞口,进行横截面回归来估计这个时点的因子收益;而CTA类基金的多因素模型是时间序列模型,通过构建刻画CTA业绩的可能指数因子收益,回归计算基金收益对因子收益的敏感系数,即因子敞口。
二、 “因子剥离模型”的优化
接下来将视角切换到模型优化的方法上。多元线性回归是业内使用最为广泛的分析方式,最小二乘法是常见的估计方法,其思想是使观测值与估计值的距离平方和最小。然而,这不可避免的带来了多重共线性、过拟合的隐患。为解决这一问题,引入偏差、方差的概念。
偏差,反映的是模型的输出值与真实值间的误差,衡量模型的拟合能力;方差,描述的是模型输出值的波动程度,反映模型的泛化能力。
正如上式:g(x)为预测值,f(x)为真实值,误差为E(g-f)² ,误差可以具体细分为方差和偏差。根据高斯-马尔科夫定理,在所有的无偏线性回归方法中,最小二乘法的偏差最小,已经无法降低模型的偏差,因此模型优化的方法只能是牺牲一部分偏差,降低模型的方差提升模型的泛化能力。实现这个目标存在两种方法:特征选择、参数收缩。
2.1 特征选择
特征选择在因子剥离中就是为了选取出与基金最相关的几个因子,利用这些因子进行多元线性回归。在降低方差的同时筛选了变量,使投资者能够直观的了解到基金暴露于哪些因子。常见的特征选择的方法有:遍历拟合法、限维拟合法、逐步递归拟合法。
(1)遍历拟合法,将因子集的所有可能性均进行遍历回归,筛选出调整后的R²最大的一组作为因子集。该方法的优点是考虑到了所有因子的不同组合体现了完备性,但同时使得计算量增加,可操作性低。
(2)限维拟合法,人为的设定因子的个数,在此基础上进行遍历拟合。通常是观察遍历拟合法得出的调整后R²的梯度曲线中因子个数与模型解释力度的关系,从而确定限维拟合法中应使用的因子个数。该方法在效率、解释性能上都有所进步,但是在确定因子个数时,主观性较强。
(3)逐步递归拟合法,是在全部因子中按照对基金作用的大小、贡献程度,从大到小逐个引入回归模型,对作用并不显著的因子从模型中剔除。引入因子或从模型中剔除因子均作为逐步回归的一步,每一步均进行检验。这个过程一直继续下去,直到在回归方程中的因子都不能剔除而又无新因子可以引入时为止。
特征选择是选择数量较少的、与基金相关性较高的几个因子,并利用这些因子进行传统的多元回归。但是对于整体而言,筛选因子子集是一种离散的优化方法,可能会引起较多的信息损耗。
2.2 参数收缩
参数收缩的思路是在参数估计中对不显著的参数进行惩罚,得到收缩处理后的新的参数估计值。常见的方法有:岭回归、Lasso回归、弹性网络。
为了便于理解,假设一个直线方程、代价函数如下,该方程只有一个特征,两个参数;表示代价函数,也为均方误差函数(MSE),m表示的是样本量。
对于参数进行不同程度的惩罚,便衍生出了:岭回归、Lasso回归、弹性网络,各个回归方法的代价函数分别如下所示:
其中,弹性网络是结合了岭回归和Lasso回归,由两者加权平均所得的。
2.3 小结
为了能够找到最佳偏差与方差的权衡点的同时提升模型解释能力,提出了遍历拟合法、限维拟合法、逐步递归拟合法、岭回归、Lasso回归以及弹性网络的方法。
然而,在实际操作中遍历操作法和限维拟合法可操作性较差,在处理大量的因子数据时有些束手无策。收缩估计法在本质上是对同样的模型做出不同的惩罚。
以上即为因子剥离模型的一些理论介绍,希望有助于大家理解该模型,并将模型应用于实际的数据挖掘与量化投资策略构建中,根网科技也将在因子分析平台以及FOF系统中应用这些方法来剥离因子,以提升因子的代表性和解释能力,为投资决策服务。
来源: 根网科技有限公司 作者: 张斌
拓展阅读: