数据流挖掘机器学习算法——Hoeffding Tree

Hoeffding Tree是一种用于数据流分类的算法,能够在处理数据流时保证效率。VFDT是其改进版,通过用户定义的阈值和最小样本数提高效率。CVFDT进一步解决了概念漂移问题,采用滑动窗口保持模型准确性。
摘要由CSDN通过智能技术生成

数据流挖掘机器学习算法——Hoeffding Tree

Hoeffding Tree是为解决数据流分类问题所提出的

数据流
  1. 概念:数据流(data stream)是一组有序,有起点和终点的字节的数据序列。包括输入流和输出流。

  2. 特点:
    a. 数据是快速到达的;
    b. 数据的属性纬度很广;
    c. 数据的到达时间是持续的.
    d. 数据流中还存在“概念漂移”、“不平衡“等特性.

  3. 与传统的关系数据模式的区别:
    a. 数据联机到达;
    b. 处理系统无法控制所处理的数据的到达顺序;
    c. 数据可能是无限多的;
    d. 由于数据量的庞大,数据流中的元素被处理后将被抛弃或存档(archive).以后再想获取这些数据将会很困难,除非将数据存储在内存中,但由于内存大小通常远远小于数据流数据的数量,因此实际上通常只能在数据第一次到达时获取数据。

  4. 针对数据流的建模的要求:
    在数据流分类算法的设计中,应该以到来的部分数据为训练集,实现分类模型的训练,并随着后续数据的不断到达来更新原有模型,使该模型更适合数据流环境。

  5. 目前在数据流分类算法上主要存在两方面的问题:
    a. 提高决策树模型精度的同时必定会以空间复杂度为代价,而数据流的数据规模庞大与之相矛盾.
    b. 现实的生产生活所产生的数据流中存在“概念漂移”现象,会造成决策树模型的精度降低.

  6. 为何要选择决策树来做

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值