美丽的回测教定计算过拟合概率

最新推荐文章于 2020-09-11 10:14:59 发布

RXiaoHong

最新推荐文章于 2020-09-11 10:14:59 发布

阅读量525

点赞数

分类专栏： Cla_Mysql Cla_众筹图书

本文链接：https://blog.csdn.net/RedeLego/article/details/89454840

版权

本文介绍了金融数据中的回测过拟合问题，提出了一个量化分析框架，即计算回测中过拟合概率（PBO）的方法。通过分析不同参数下策略的夏普率，揭示了过拟合如何高估策略性能，并提供了Combinatorially-Symmetric Cross-Validation（CSCV）框架来评估策略的可靠性。

摘要由CSDN通过智能技术生成

转美丽的回测 —— 教你定量计算过拟合概率

作者：石川，量信创始合伙人，清华大学学士、硕士，麻省理工学院博士；精通各种概率模型和统计方法，擅长不确定性随机系统的建模及优化。知乎专栏：https://zhuanlan.zhihu.com/mitcshi。

摘要：金融数据的信噪比很低，使得过拟合成为回测中的必然。本文介绍一个量化分析框架，它可以计算回测中过拟合的概率，有助于评价量化策略的有效性。

1、引言：

武当山上，殷素素在张翠山自刎后也随即自杀，临死前嘱咐儿子张无忌“千万不要相信漂亮的女人。越是漂亮的女人，越会骗人。”

在量化投资中，回测（backtesting）就是这样一个漂亮的女人。

众所周知，金融数据中的信噪比很低。当我们在回测中尝试了大量的参数时、或是在选股时测试了大量的因子后，找出来效果最好的一组参数或者一个因子总能获得非常不错的效果。但这大概率是因为它们仅仅是对回测期内的噪音精准建模了。

“If the researcher tries a large enough number of strategy configurations, a backtest can always be fit to any desired performance for a fixed sample length.译：对于给定样本长度，只要尝试足够多的参数配置，总能达到想要的风险收益特性。”

来看一个例子。

以中证 500 的成分股为选股池、2010 年 1 月到 2018 年 10 月为回测期，评价不同的选股因子 —— 以该因子选出的前 50 支股票构建纯多头的投资组合的最终净值评价因子的效果。当测试了 20 个不同的因子后，最优秀的因子的净值为 2.29（同期中证 500 指数净值仅为 1.06）。这 20 个因子的净值如下图所示（紫色加粗的是最好的那个）。

如果把测试因子的个数从 20 个上升至 50 个，选股效果进一步提升，最好因子的净值从 2.29 上升至 2.40。下图是 50 个因子（包括最开始的 20 个）的选股效果，紫色加粗曲线依然为前 20 个因子中最好的、红色加粗曲线为这 50 个因子中最好的。

最后，我们把测试的个数上升至 100（这是一个任何量化选股报告中都会轻易突破的因子个数）。这 100 个因子中（包括之前 50 个），最好的因子的净值为 2.43，在前 50 个因子的基础上进一步提高了。下图中黑色加粗曲线代表了全部 100 个因子中最好的那个的选股净值。

考虑到这些因子之间不是完全相关，如果我们把这三个因子结合起来再配合更复杂的交易算法，一定能在回测期内获得更好的选股效果。但是，如果仅仅因为最终的策略中只用了三个因子就认为没有过拟合，那就大错特错了，因为在发现这三个因子的背后是 97 次失败的尝试。

当进行 multiple testing 时（同时检验很多不同的假设），效果最好的那个即便在统计上非常显著（比如有很低的 p-value 或者很高的 t-statistic），它是 false discovery 的概率仍然很高（见《出色不如走运 (II)》）。不幸的是，这是金融圈学术界普遍存在的问题。学者们在顶刊上发表一个有效策略或者因子的时候，并不告诉读者这个发现的背后经历了多少失败的尝试。失败的尝试越多，这个发现其实是虚假的概率就越高。

当我们乐此不疲的测试不同的参数组合或者尝试不同的因子时，其实只是在做一件事 —— 过拟合。最终被挑出来的往往是过拟合带来的 false discovery。回测中过拟合的直接结果就是无法准确评价策略在样本外的效果。如果过拟合非常严重，即策略本身就是针对噪音构建的，那么它可能在实盘中是完全失效的、等待它的只有亏损。

鉴于过拟合的普遍存在以及过拟合的严重后果，如何量化回测中过拟合的概率（Probability of Backtest Overfitting，简称 PBO）就显得至关重要。本文就来介绍一种定量计算回测中过拟合概率的方法。

让我们从夏普率（Sharpe Ratio，简称 SR）说起。

2、围绕夏普率的讨论

为计算回测的过拟合概率，需要比较不

最低0.47元/天解锁文章

RXiaoHong

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
美丽的回测教定计算过拟合概率

转美丽的回测 —— 教你定量计算过拟合概率作者：石川，量信创始合伙人，清华大学学士、硕士，麻省理工学院博士；精通各种概率模型和统计方法，擅长不确定性随机系统的建模及优化。知乎专栏：https://zhuanlan.zhihu.com/mitcshi。摘要：金融数据的信噪比很低，使得过拟合成为回测中的必然。本文介绍一个量化分析框架，它可以计算回测中过拟合的概率，有助于评价量化策略的有效性。1...
复制链接

扫一扫

专栏目录