金融数据时间序列分析——模型准确率过高怎么办

最新推荐文章于 2023-05-22 11:43:52 发布

量化橙同学

最新推荐文章于 2023-05-22 11:43:52 发布

阅读量2.1k

点赞数

分类专栏： python数据处理人工智能金融工程数据处理

本文链接：https://blog.csdn.net/m0_37876745/article/details/86244573

版权

python数据处理同时被 3 个专栏收录

45 篇文章 9 订阅

订阅专栏

人工智能

19 篇文章 2 订阅

订阅专栏

数据处理

14 篇文章 0 订阅

订阅专栏

多少年后，小f想起了自己还是刚刚出道的小萌新时候犯的一个错误，当时模型的准确率贼高，高的离谱，就像下面这种情况

              precision    recall  f1-score   support

          -1       1       1       1           1934
           0       1       1       1            535
           1       1       1       1           1624

   micro avg       1       1       1           4093
   macro avg       1       1       1           4093
weighted avg       1       1       1           4093

大佬走过来，瞄了一眼说，肯定是数据偷窥了。（意思就是去）

于是他慌了，调整数据训练集和测试集的比例，没卵用，0.1：0.99也不成，完了完了；接着调整因子呢?或者说features，100多个因子，找到了点数据偷窥的根据，你看这个因子用了全数据集的rank，嗯，使用了下面测试集的数据，有道理有道理，然后，删到了10来个，噢，随机森林的叶子和决策树的数目也要调过来，改一下改一下，花了将近一天时间来做这个。满心欢喜重新开始——

然后。。。

              precision    recall  f1-score   support

          -1       1       1       1           1934
           0       1       1       1            535
           1       1       1       1           1624

   micro avg       1       1       1           4093
   macro avg       1       1       1           4093
weighted avg       1       1       1           4093

。。。场面一度非常尴尬~~~

直到这时，人们才想起来了按步debug这个破局之策~~~

因子不能手算吧，况且公式我们还检查过了，扔了很多因子呢。

看看列的头吧，嗯。？？

用来计算label，也就是y值的列怎么混到X里面来了？？？mmp

一言以敝之，数据偷窥了，除了这个没有别的可能嗯，尤其是这么离谱的准确率，一般的偷窥还做不到吧

量化橙同学

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
金融数据时间序列分析——模型准确率过高怎么办

多少年后，小f想起了自己还是刚刚出道的小萌新时候犯的一个错误，当时模型的准确率贼高，高的离谱，就像下面这种情况 precision recall f1-score support -1 1 1 1 1934 0 1 1 ...
复制链接

扫一扫