大数据流 即 实时收集的大量的数据。
数据的流量大到无法实时将全部数据放入分析工具中处理。
这里写写要解决的问题,及问题解决的思路,若是真的去实现,则需要考虑更多的问题、因素,需要查询更更详尽的资料。
常见的数据流问题:
1. 数据流的查询有哪些类型?有哪些处理策略?
2. 对大数据流进行抽样,带来哪些问题?
3. 如何有效地过滤某些数据?
4. 对独立(不同)元素的个数如何统计?
5. 矩估计(对问题4的扩展)
6. 对窗口内二进制1的个数如何统计?
1. 数据流的查询有哪些类型?有哪些处理策略?
1)固定查询:对前来的数据一直在执行查询和计算
2)即时查询ad hoc:仅当一个查询操作提交时,才对数据进行计算查询
内存大小的限制,是数据流处理考虑的主要因素。因此,数据流处理算法的两个策略:
1)计算问题的近似解,比精确解高效的多
2)hash技术,对求解近似解非常有帮助
2. 对大数据流进行抽样,带来哪些问题?
数据流巨大时,只需随机抽样一部分数据,进行存储,并供ad hoc分析使用。
抽样统计带来的问题:
统计用户的重复查询问题:
抽样时,涉及概率的乘法定理要谨慎处理,