所有历史数据都是样内_。所有历史数据都是样本内-CSDN博客

本文链接：https://blog.csdn.net/chuasnpi/article/details/89456436

本文探讨了金融策略回测中的样本内和样本外数据问题。即使预留样本外数据，由于研究人员对历史的了解，所有历史数据本质上都是样本内。文章通过实例展示了因子失效如何影响策略表现，并指出迭代样本外测试可能导致过拟合。结论强调，构建策略应基于对金融学和经济学的理解，而非纯粹依赖数据验证。

摘要由CSDN通过智能技术生成

转所有历史数据都是样本内

作者：石川，北京量信投资管理有限公司创始合伙人，清华大学学士、硕士，麻省理工学院博士；精通各种概率模型和统计方法，擅长不确定性随机系统的建模及优化。知乎专栏：https://zhuanlan.zhihu.com/mitcshi。未经授权，严禁转载。

摘要：我们构建策略靠的不是站在回测起点往后看的先见之明，而是站在回测终点往前看的后见之明。所有历史数据都是样本内。

1、引言

金融领域的小伙伴想必对 Institutional Investor Journals (II Journals) 并不陌生。它旗下有很多影响力很高的期刊，其中最著名的大概是 Journal of Portfolio Management。与 JF、JFE、RFS 这些纯学术类期刊不同，II Journals 的期刊更注重实践，深得业界喜爱；而 Fischer Black、Robert Engle、Daniel Kahneman、Andrew Lo、William Sharpe、Robert Shiller 等大咖也均在 II Journals 的期刊发表过研究。

2018 年 II Journals 更名为 Institutional Portfolio Research Journals (IPR Journals)，并于 2019 年为旗下的期刊系列增加了一位最新成员 —— Journal of Financial Data Science。该刊的 Editors 和 Advisory Board 可谓十分豪华（下图）。

随着大数据和机器学习算法在金融和投资中的潜在作用越来越大，这本期刊的诞生无疑是非常及时的。它旨在指导金融领域的实践者正确使用与日俱增的数据和日新月异的技术。如今，该刊第一卷第一期已经发行。

作为处女刊，它里面包含了很多非常有意思的文章。其中最吸引我的是一篇题为 A Backtesting Protocol in the Era of Machine Learning（机器学习时代的回测协议）。它的作者是 Rob Arnott、Campbell Harvey 以及 Harry Markowitz（三位都无需介绍）。在这篇文章中，三位作者从七个方面提出了新时代下进行策略回测时应该遵循的一些规则，从而最大化的降低数据挖掘和过拟合的影响。这七方面构成了一个完整且可操作的体系，能够帮助我们更好的规避样本内的虚假信号、找出能在样本外更有效的交易策略。

这七方面的每一块都值得好好研读一番（建议感兴趣的小伙伴找来 Arnott, Harvey, and Markowitz 2019 这篇文章读一读）。在今天的文章中，我仅想对第四部分 Cross-Validation 里面的两个论点谈一些想法。在这一部分，三位作者抛出了两个观点：

1. Out of Sample is Not Really Out of Sample.

2. Iterated Out of Sample is Not Out of Sample.

这两句话结合起来再翻译成中文就是所有历史数据都是样本内。我对此深以为然。

2、Out of Sample is NOT