数据挖掘之大数据流处理

本文探讨了大数据流处理中的关键问题,包括数据流查询的类型与策略、抽样问题、数据过滤、独立元素计数、矩估计以及窗口内二进制1的统计。介绍了Bloom过滤器、FM算法、AMS算法和DGIM算法等技术,用于解决在内存限制下的实时数据分析挑战。
摘要由CSDN通过智能技术生成

大数据流 即 实时收集的大量的数据。

数据的流量大到无法实时将全部数据放入分析工具中处理。


这里写写要解决的问题,及问题解决的思路,若是真的去实现,则需要考虑更多的问题、因素,需要查询更更详尽的资料。


常见的数据流问题:

1. 数据流的查询有哪些类型?有哪些处理策略?

2. 对大数据流进行抽样,带来哪些问题?

3. 如何有效地过滤某些数据?

4. 对独立(不同)元素的个数如何统计?

5. 矩估计(对问题4的扩展)

6. 对窗口内二进制1的个数如何统计?


1. 数据流的查询有哪些类型?有哪些处理策略?

1)固定查询:对前来的数据一直在执行查询和计算

2)即时查询ad hoc:仅当一个查询操作提交时,才对数据进行计算查询


内存大小的限制,是数据流处理考虑的主要因素。因此,数据流处理算法的两个策略:

1)计算问题的近似解,比精确解高效的多

2)hash技术,对求解近似解非常有帮助


2. 对大数据流进行抽样,带来哪些问题?

数据流巨大时,只需随机抽样一部分数据,进行存储,并供ad hoc分析使用。

抽样统计带来的问题:

统计用户的重复查询问题:

抽样时,涉及概率的乘法定理要谨慎处理,

  • 4
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值