量化投资基础（三）之Fama-French 三因子模型（1）

PyQuant

于 2024-07-16 11:33:40 发布

阅读量3.1k

点赞数 36

分类专栏：量化投资基础文章标签：量化投资线性回归 python

本文链接：https://blog.csdn.net/qq_33499889/article/details/140461198

版权

量化投资基础专栏收录该内容

12 篇文章

订阅专栏

点赞、关注，养成良好习惯
Life is short, U need Python
量化投资基础系列，不断更新中

1. 前言

Sharp（1964），Lintner（1965），Black（1972）的资本资产定价模型（Capital asset pricing model, CAPM）认为，股票的收益只与整个股票市场的 系统风险 有线性关系，即

$R_i-R_f=\beta_i(R_m-R_f)$

也就是说，股票的期望收益只与市场的 系统风险 有关。

但是，Banz（1981）的论文发现，股票的收益还与其 市场价值 有关。在随后的一系列研究中，账面市值比（BE/ME）、市盈率倒数（E/P）等一系列指标都被发现可以解释股票价格的变动，也就是说，股票价格与一系列的 非系统风险 因素有关。

Fama 和 French（1992）对美国股票市场决定不同股票回报率差异因素的研究发现，股票市场的 $\beta$ 值不能解释不同股票回报率的差异，而上市公司的市值、账面市值比、市盈率 可以解释股票回报率的差异。

2. Fama-French 三因子基本思想

Fama 和 French 于1992年和1993年对美国股票市场中股票收益率的决定因素进行了全面性的研究分析，发现单独使用 Beta 或者分别与市值、P/E比、杠杆比(率)、B/M比结合在一起来解释股票收益率时，Beta 的解释能力很弱。

市值、P/E比、杠杆比(率)、B/M比各因子单独用来解释收益率时，每个因子的解释能力都很强；当把这些因子组合起来时，市值、B/M比 会弱化 杠杆比(率) 和 P/E比的解释能力。

因此，Fama 和 French 从可以解释股票收益率的众多因素中提取出3个重要的影响因子（特征工程），即 市场风险溢酬因子、市值因子 和 账面市值比因子，仿照 CAPM模型用这3个因子建立起线性模型来解释股票的收益率，这就是著名的 Fama-French三因子模型 (Fama-French Three Factor Model ) 。

三因子模型中的 3 个因子均为投资组合的 收益率：市场风险溢酬因子 对应的是 市场投资组合的收益率，市值因子 对应的 做多市值较小公司、做空市值较大公司的投资组合之收益率，账面市值比因子 对应的是 做多高 B/M 比公司、做空低 B/M 比公司的投资组合之收益率。三因子模型的具体形式如下:
$E(R_{it}) - R_{ft} = b_i[E(R_{mt}) - R_{ft}] + s_{i}E(SMB_t) + h_{i}E(HML_t)$

$R_{mt}-R_{ft}$ 为市场风险，其中 $R_{mt}$ 是市场收益率， $R_{ft}$ 是无风险收益率（比如，利率或国债收益率等）；
SMB（Small Minus Big）代表市值因子，也就是小公司比大公司高出的收益率；
HML（High Minus Low）代表账面市值比因子，用高 B/M 比股票收益率减去低 B/M 比公司的收益率得到；
$b_i$ 、 $s_i$ 和 $h_i$ 分别为投资组合(或单只股票)的收益率对3个因子的敏感系数。

事实上，常用如下公式：
$R_{it} - R_{ft} = \alpha_{i} + b_{i}(R_{mt} - R_{ft}) + s_{i}SMB_t + h_{i}HML_t + \epsilon_{it}$

$R_{it}$ 和 $R_{mt}$ 的数值获取
- 市场组合收益率 $R_{mt}$ 直接从数据库获取；
- 若研究对象为个体，则 $R_{it}$ 直接从数据库获取；
- 若研究对象为投资组合，则 $R_{it}$ 需要由个股收益的加权平均计算：
- 等比例加权平均（Equal Weighted Average）
- 市值比例加权平均（Value Weighted Average）
$R_{ft}$ 的数值获取
- 中国人民银行公布的利率
- 可以参考政府债券的利率
$SMB_t$ 和 $HML_t$ 的计算
- (1) $SMB_t$ 对应的是做多市值较小公司、做空市值较大公司的投资组合之收益率；
  - 市值即公司股票的市值（Size），等于股票价格 $P$ 乘以流通股数 $Q$
  - 上市公司 $k$ 在 $t$ 时刻的市值即为 $ME_{kt} = P_{kt} * Q_{kt}$
  - 将 $ME_{kt}$ 从小到大排序，找出中位数，低于中位数者为 $S ma ll$ 组（S），高于中位数者为 $B i g$ 组（B）
- (2) $HML_t$ 对应的是做多高 B/M 比公司、做空低 B/M 比公司的投资组合之收益率；
  - 上市公司 $k$ 在 $t$ 时刻的 $B/M Ratio_{kt}=BE_{kt}/ME_{kt}$
  - $BE_{kt}$ 为公司 $k$ 在 $t$ 时刻的账面价值（Book Common Equity）：可以从财务报表数据库得
  - $ME_{kt}$ 为上市公司 $k$ 在 $t$ 时刻的市值即为 $ME_{kt} = P_{kt} * Q_{kt}$
  - 将 $B/M Ratio_{kt}$ 从小到大排序，前30%者为 $L o w$ 组（L），后30%者为 $H i g h$ 组（H），中间40%者为 $M e d i u m$ 组（M）
- (3) 根据 $ME_{kt}$ 和 $B/M Ratio_{kt}$ 的划分可以得到六组投资组合：S/L、S/H、S/M；B/L、B/H、B/M；
- (4) 利用加权平均的方法计算每组的平均收益率，具体做法如下：
  - $B / M$ 组由 $K$ 个公司组成， $t$ 时点时每个公司的市值分别为 $M_{1t},...,M_{Kt}$ ，各公司股票收益为 $R_{1t},...,R_{Kt}$ ，则 $B / M$ 组的收益率为：
    $\begin{aligned} B M_{t} &=\frac{M_{1 t}}{\sum_{K} M_{k t}} R_{1 t}+\frac{M_{2 t}}{\sum_{K} M_{k t}} R_{2 t}+\cdots+\frac{M_{K t}}{\sum_{K} M_{k t}} R_{K t} \\ &=\sum_{K} M_{k t} R_{k t} / \sum_{K} M_{k t} \end{aligned}$
  - 同理可得： $B H_{t}$ 、 $B L_{t}$ 、 $S M_{t}$ 、 $S H_{t}$ 、 $S L_{t}$ ；
- (5) 根据 Fama 和 French（1993）的设定：
  $\begin{array}{l} S M B_{t}=\frac{1}{3}\left(S L_{t}+S M_{t}+S H_{t}\right)-\frac{1}{3}\left(B L_{t}+B M_{t}+B H_{t}\right) \\ H M L_{t}=\frac{1}{2}\left(S L_{t}+B L_{t}\right)-\frac{1}{2}\left(S H_{t}+B H_{t}\right) \end{array}$

从整个过程来看，SMB 和 HML 的计算稍稍有些复杂，因此现在一些数据库厂商会计算好这三个因子提供给使用者，在接下来的例子中，为了重点突出三因子模型的实证应用，就不把重点放在计算因子上，直接应用下载好的数据(实现-1)。

因子数据库（U.S.）：http://mba.tuck.dartmouth.edu/pages/faculty/ken.french/data_library.html

3. 三因子模型之Python实现-1

数据源：下载因子数据（China_F-F_3_Factors_daily.txt） + 个股（stock_data.txt）

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['simhei']
plt.rcParams['axes.unicode_minus'] = False

个股数据集：‘stock_data.txt’

# 读取股票数据集：'stock_data.txt'
stock = pd.read_csv('datas\\stock_data.txt',sep='\t',index_col='Trddt').iloc[:,:11]
stock.head(2)

提取个股：华夏银行（600015）

# 获取华夏银行股票（600015）数据
HXBank = stock[stock.Stkcd==600015]
HXBank.head(2)

# 华夏银行收益率时序图
HXRet.plot()
plt.title("图1 华夏银行收益率时序图")
plt.show()

在这里插入图片描述

接下来，读取三因子模型中的市场投资组合风险溢酬因子、市值因子（SMB）,账面市值比因子（HML）数据，该数据包含以下几种：

股票市场类型编码(MarkettypeID)，其中P9710代表综合A、B股和创业板市场；
交易日期(TradingDate )；
市场投资组合风险溢酬因子(RiskPremium )、市值因子（SMB）、账面市值比因子（HML）。

RiskPremiuml、SMBl、HMLl 中投资组合收益率是将个股收益率用 流通市值 加权平均计算得到。
RiskPremium2、SMB2、HML2 中投资组合收益率是将个股收益率用 总市值 加权平均计算得到。

中国三因子数据集：‘China_F-F_3_Factors_daily.txt’

中国三因子数据集不易免费获取，建议选取美国三因子数据集（详见F-F因子数据库官网）；当然对应的个股也必须选取美国上市的标的！

# 获取中国三因子数据资料：'China_F-F_3_Factors_daily.txt'
ThreeFactors = pd.read_csv('datas\China_F-F_3_Factors_daily.txt',sep='\t', index_col='TradingDate')
ThreeFactors.head(3)

省略代码详见资源包！

# 华夏银行三因子模型配对图
plt.figure(figsize=(8,4))

plt.subplot(2,2,1)
plt.scatter(df.HXRet,df.RiskPremium2)  # 风险溢酬因子--RiskPremium2
plt.xticks([])  
plt.title("图2.1 华夏银行 VS RiskPremium2",fontsize=12)

plt.subplot(2,2,2)
plt.scatter(df.HXRet,df.SMB2)         # 市值因子--SMB2
# plt.xticks([])  
plt.title("图2.2 华夏银行 VS SMB2",fontsize=12)

plt.subplot(2,2,3)
plt.scatter(df.HXRet,df.HML2)        # 账面市值比因子--HML2
plt.title("图2.3 华夏银行 VS HML2",fontsize=12)

plt.show()

在这里插入图片描述

接下来，将华夏银行的股票收益率与三个因子变量建立多元回归模型。
- 从下面的回归结果来看，华夏银行2014年1月至2015年4月股票的收益率对三因子模型中的市场投资组合风险溢酬因子、账面市值比因子是敏感的，也就是说这两个因子可以部分解释华夏银行的收益率变动，而市值因子的系数不显著地异于0，解释能力不够强。

含常数项情形下

省略代码详见资源包！

于是，三因子模型的回归方程（含常数项）为：

$HXRet_t = 0.000313 + 1.04592RiskPreminum2_t + 0.189923SMB2_t + 0.565870HML2_t$

不含常数项情形下

省略代码详见资源包！

于是，三因子模型的回归方程（不含常数项）为：

$HXRet_t = 1.050747RiskPreminum2_t + 0.191308SMB2_t + 0.562967HML2_t$

4. 三因子模型的评价

以含常数项的模型（1）为例！

4.1 评价（一）

利用全样本建立回归模型，并利用模型拟合全样本数据！

省略代码详见资源包！

在这里插入图片描述

4.2 评价（二）

在建模时，一般把数据分成两组，即历史建模数据（训练集）和未来预测数据（测试集）

省略代码详见资源包！

在这里插入图片描述

5. 小结

本案例主要利用数据库提供的中国三因子数据集，并选取中国上市股票数据建立对应的三因子模型，并给出了对应的评价检验，发现效果还是不错的！
如果读者获取中国三因子数据集比较困难，建议选取F-F官网三因子数据集（可以免费下载的），并选取美国上市股票建立相应的三因子模型即可！
接下来，将会在量化投资基础（三）之Fama-French 三因子模型（2）中利用中国股市标的基础数据集通过三因子公式计算对应的三因子数据集，然后选取中国股市中的标的建立三因子回归模型。这里需要提醒的是在数据库平台提取基础数据集是需要更高级别的权限的！