AFML读书笔记--Cross-Validation in Finance

最新推荐文章于 2022-04-19 01:23:39 发布

Luque_1010

最新推荐文章于 2022-04-19 01:23:39 发布

阅读量872

点赞数

分类专栏： AFML读书笔记文章标签： python 机器学习算法

本文链接：https://blog.csdn.net/weixin_41985789/article/details/103562993

版权

本文是《Advanced Finance Machine Learning》的读书笔记，探讨金融数据中交叉验证（CV）的特殊性，指出K-Fold CV可能引发的问题，如数据泄露，并提出解决方案——Purged K-Fold CV和Embargo方法，旨在防止过拟合并确保模型稳健。

摘要由CSDN通过智能技术生成

Advance Finance Machine Learning读书笔记

本人失业在家，正在读刚买的Advance Finance Machine Learning（AFML），基于此书全是英文，有些知识点需要再次整理与巩固，所以写一下这个系列。
之前有搜到大神weixin_38753422的AFML系列。写得很详细并且有代码和图片解释，链接在此
此系列从Part 1 Chapter 3开始写起，Chapter3之前内容可以在上面的链接里看到。（注意并不是所有内容的整理，而是我个人觉得需要整理的内容）

本文讲的时Part 1 Chapter 7 Cross-Validation in Finance(金融数据中的CV)
Chapter 6 是关于Bagging 和 Boosting的没啥好整理的，站内一搜全是关于这个的资料

在Finance中的CV和普通CV有什么不同

CV的目的就是防止模型的Overfitting，但是在金融数据中如果按照正常流程的CV，不仅防止不了过拟合，反而还会超参搜索的过程中导致过拟合。

K-Fold CV为什么不起作用

数据不能保证是服从IID过程的。
测试集在构建模型的过程中被使用了很多次

数据泄露

数据泄露（Leakage）：当训练集内的信息，出现在了测试集上，就代表有数据泄露发生。

例子：
一个序列相关的特征 $X$ ,对应着它的标签 $Y$ 是从一组Overlapping的Data上采集的
1.因为是序列相关，所以 $X_t\approx X_{t+1}$
2.因为是Overlapping的数据点，所以 $Y_t\approx Y_{t+1}$
假设， $t$ 时刻数据点和 $t + 1$ 时刻的数据点分布在不同的数据集上，那么数据就已经泄露了
结果：数据泄露导致模型分辨不出哪些特征具有预测信息，而哪些没有。
（注意：当 $X_i$ 与 $X_j$ 是Overlapping，只要 $Y_i$ 与 $Y_j$ 相互独立，信息就不会泄露）