流挖掘技术

最新推荐文章于 2024-08-26 21:46:59 发布

1218_Andy

最新推荐文章于 2024-08-26 21:46:59 发布

阅读量416

点赞数

分类专栏：大数据技术分析文章标签：技术算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lhb_1218/article/details/44087319

版权

大数据技术分析专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一，数据流特点

1. 海量的，不可能在内存以及硬盘存储

2. 传统的多遍扫描挖掘方式不切实际

3. 快速变化的，不可能看到流中每一个元素，只能分析部分获取决策

4. 时序的，只能是单次线性，按其流入顺序依次读取

5. 很快的响应时间

6. 高维的

二，数据模型

1. 时序模型(time sevies):A[i] = X1,每一个数据项代表独立的信号

2. 现金登记(cash register)：令Xi = (j,Ii)且Ii>=0,则Ai[j]=Ai-1[j]+Ii 数据流中多个数据项增量表达一个A[j]

3. 十字转门：同上，Ai[j]随着流入，可能增加也可能减少。

按照时序范围，可分为：

1. 快照模型：处理范围在两个预定的事件戳范围之内

2. 界标模型：从已知的初始时间点到当前的时间点

3. 滑动窗口模型：某个固定的滑动窗口确定，滑动窗口终点永远为当前时间。其中窗口的大小可以由一个时间区定义，也可以由窗口的数据项定义。

三，数据流挖掘挑战

1. 单次线性扫描

2. 低的时间复杂度

3. 低的空间复杂度

4. 在理论上保证计算结果具有好的近似度

5. 能适应动态变化的数据和流速

6. 能有效的处理噪音和空值

7. on-demand挖掘

8. anytime的响应

9. 概要数据结构的通用性

四，生成数据流概要数据结构的方法

1. 基于数据的：取样，直方图，小波变换，sketching，loadshedding，hash，聚集运算

2. 基于任务的

① 滑动窗口技术，最大的问题在于过期数据的移除，需要消除滑动窗口上过期数据对目标计算结果的影响

② 多窗口技术，在内存或者磁盘上保存数据流上多个窗口的数据信息

③ 衰减因子，每个数据项都被赋予一个随时间不断减少的因子，数据项的值与衰减因子相乘后再参与计算

④ 近似技术，以降低计算结果的精度为代价，换取算法时空复杂度降低

⑤ 自适应技术，根据数据分布的变化和流速的变化自动调节算法

五，挖掘技术

1. 分类：

① 无权重的majority,voting,投票规则分类

② 根据各分类模型在当前数据段上

2. 聚类：对已给的数据集合，将其中相似的对象划分为一个或者多组

① 对已发现的簇，提供一个简洁的表达方式

② 对新的数据元素的处理，增量的

③ 清晰而快速的孤立检测点

3.频繁挖掘模式

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
流挖掘技术

一，数据流特点1. 海量的，不可能在内存以及硬盘存储2. 传统的多遍扫描挖掘方式不切实际3. 快速变化的，不可能看到流中每一个元素，只能分析部分获取决策4. 时序的，只能是单次线性，按其流入顺序依次读取5. 很快的响应时间6. 高维的二，数据模型1. 时序模型(time sevies):A[i]
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。