Approaches for evaluate the accuracy of classifier for streaming data

最新推荐文章于 2020-08-18 10:57:57 发布

敲代码的quant

最新推荐文章于 2020-08-18 10:57:57 发布

阅读量1.1k

点赞数 1

分类专栏： concept drift 文章标签： holdout

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/FrankieHello/article/details/82356750

版权

concept drift 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在传统的batch learning中，在评估模型训练结果好坏的时候，常用cross-validation（交叉验证）的方法，如K-fold cross-validation。但是当面临stream data learning时，数据的有限性就暴露出了一些挑战。一种解决方式就是在每个时间点taking snapshot（快照），然后观察模型的进步。而如何建立这个快照有下面几种方法。

Holdout

在介绍holdout时，先说一下batch learning中的cross-validation。以常用的K-fold cross-validtion为例，它的过程是：

初始将数据样本采样分割为K个子样本，保留一个单独的子样本作为验证模型的数据，其他的K-1个样本用来训练模型。然后这样重复K次，直至K个子样本都作为一遍验证数据，再将得到的K个结果进行平均或者其他的方式来得到最终的结果。

但使用交叉验证太费时间的时候，holdout方法常被采用。holdout验证则只是从最初的样本中选出部分进行训练，剩余的部分作为验证数据，一般来说少于原本样本三分之一的数据被选为验证数据。并且，当训练集和测试集被pre-defined时，使用holdout是最有效的，不同的研究方法可以直接得到结果。

Interleaved Test-Then-Train or Prequential

每个单独的样本个体在被用来训练之前，都可以作为测试。这样的话，准确率就会一直不断被更新。这种方式的好处就是可以让模型不断被看不到的数据来测试，并且不需要holdout集合用来测试，还可以最大限度的利用已有的数据。这样，还可以确保准确率曲线的平滑性。

另外，由于数据流分类是一个相对较新的领域，这类评价并没有像传统的批学习那样得到很好的研究和建立。

ref:https://moa.cms.waikato.ac.nz/tutorial-1-introduction-to-moa/

敲代码的quant

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Approaches for evaluate the accuracy of classifier for streaming data

在传统的batch learning中，在评估模型训练结果好坏的时候，常用cross-validation（交叉验证）的方法，如K-fold cross-validation。但是当面临stream data learning时，数据的有限性就暴露出了一些挑战。一种解决方式就是在每个时间点taking snapshot（快照），然后观察模型的进步。而如何建立这个快照有下面几种方法。Holdou...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。