数据流挖掘机器学习算法——Hoeffding Tree

最新推荐文章于 2025-03-01 21:48:00 发布

七又八

最新推荐文章于 2025-03-01 21:48:00 发布

阅读量9.6k

点赞数 11

分类专栏：数据流挖掘之分类算法文章标签： Hoeffding Tree 数据流挖掘决策树 VFDT

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/melinmmm/article/details/100077211

版权

Hoeffding Tree是一种用于数据流分类的算法，能够在处理数据流时保证效率。VFDT是其改进版，通过用户定义的阈值和最小样本数提高效率。CVFDT进一步解决了概念漂移问题，采用滑动窗口保持模型准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据流挖掘机器学习算法——Hoeffding Tree

Hoeffding Tree是为解决数据流分类问题所提出的

数据流

概念：数据流（data stream）是一组有序，有起点和终点的字节的数据序列。包括输入流和输出流。
特点：
a. 数据是快速到达的；
b. 数据的属性纬度很广；
c. 数据的到达时间是持续的.
d. 数据流中还存在“概念漂移”、“不平衡“等特性.
与传统的关系数据模式的区别：
a. 数据联机到达；
b. 处理系统无法控制所处理的数据的到达顺序;
c. 数据可能是无限多的；
d. 由于数据量的庞大，数据流中的元素被处理后将被抛弃或存档（archive).以后再想获取这些数据将会很困难，除非将数据存储在内存中，但由于内存大小通常远远小于数据流数据的数量，因此实际上通常只能在数据第一次到达时获取数据。
针对数据流的建模的要求：
在数据流分类算法的设计中，应该以到来的部分数据为训练集，实现分类模型的训练，并随着后续数据的不断到达来更新原有模型，使该模型更适合数据流环境。
目前在数据流分类算法上主要存在两方面的问题：
a. 提高决策树模型精度的同时必定会以空间复杂度为代价，而数据流的数据规模庞大与之相矛盾.
b. 现实的生产生活所产生的数据流中存在“概念漂移”现象，会造成决策树模型的精度降低.
为何要选择决策树来做

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。