流挖掘技术

一,数据流特点

1.      海量的,不可能在内存以及硬盘存储

2.      传统的多遍扫描挖掘方式不切实际

3.      快速变化的,不可能看到流中每一个元素,只能分析部分获取决策

4.      时序的,只能是单次线性,按其流入顺序依次读取

5.      很快的响应时间

6.      高维的

二,数据模型

1.      时序模型(time sevies):A[i] = X1,每一个数据项代表独立的信号

2.      现金登记(cash register):令Xi = (j,Ii)且Ii>=0,则Ai[j]=Ai-1[j]+Ii 数据流中多个数据项增量表达一个A[j]

3.      十字转门:同上,Ai[j]随着流入,可能增加也可能减少。

按照时序范围,可分为:

1.      快照模型:处理范围在两个预定的事件戳范围之内

2.      界标模型:从已知的初始时间点到当前的时间点

3.      滑动窗口模型:某个固定的滑动窗口确定,滑动窗口终点永远为当前时间。其中窗口的大小可以由一个时间区定义,也可以由窗口的数据项定义。

三,数据流挖掘挑战

1.      单次线性扫描

2.      低的时间复杂度

3.      低的空间复杂度

4.      在理论上保证计算结果具有好的近似度

5.      能适应动态变化的数据和流速

6.      能有效的处理噪音和空值

7.      on-demand挖掘

8.      anytime的响应

9.      概要数据结构的通用性

四,生成数据流概要数据结构的方法

1.      基于数据的:取样,直方图,小波变换,sketching,loadshedding,hash,聚集运算

2.      基于任务的

①    滑动窗口技术,最大的问题在于过期数据的移除,需要消除滑动窗口上过期数据对目标计算结果的影响

②    多窗口技术,在内存或者磁盘上保存数据流上多个窗口的数据信息

③    衰减因子,每个数据项都被赋予一个随时间不断减少的因子,数据项的值与衰减因子相乘后再参与计算

④    近似技术,以降低计算结果的精度为代价,换取算法时空复杂度降低

⑤    自适应技术,根据数据分布的变化和流速的变化自动调节算法

五,挖掘技术

1.      分类:

①    无权重的majority,voting,投票规则分类

②    根据各分类模型在当前数据段上

2.      聚类:对已给的数据集合,将其中相似的对象划分为一个或者多组

①    对已发现的簇,提供一个简洁的表达方式

②    对新的数据元素的处理,增量的

③    清晰而快速的孤立检测点

    3.频繁挖掘模式

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值