数据流挖掘机器学习算法——Hoeffding Tree
Hoeffding Tree是为解决数据流分类问题所提出的
数据流
-
概念:数据流(data stream)是一组有序,有起点和终点的字节的数据序列。包括输入流和输出流。
-
特点:
a. 数据是快速到达的;
b. 数据的属性纬度很广;
c. 数据的到达时间是持续的.
d. 数据流中还存在“概念漂移”、“不平衡“等特性. -
与传统的关系数据模式的区别:
a. 数据联机到达;
b. 处理系统无法控制所处理的数据的到达顺序;
c. 数据可能是无限多的;
d. 由于数据量的庞大,数据流中的元素被处理后将被抛弃或存档(archive).以后再想获取这些数据将会很困难,除非将数据存储在内存中,但由于内存大小通常远远小于数据流数据的数量,因此实际上通常只能在数据第一次到达时获取数据。 -
针对数据流的建模的要求:
在数据流分类算法的设计中,应该以到来的部分数据为训练集,实现分类模型的训练,并随着后续数据的不断到达来更新原有模型,使该模型更适合数据流环境。 -
目前在数据流分类算法上主要存在两方面的问题:
a. 提高决策树模型精度的同时必定会以空间复杂度为代价,而数据流的数据规模庞大与之相矛盾.
b. 现实的生产生活所产生的数据流中存在“概念漂移”现象,会造成决策树模型的精度降低. -
为何要选择决策树来做