DataSketches Research Directions 流数据相关研究

DataSketches是一个开源项目,专注于流数据处理的可合并摘要算法,适用于大规模数据分析。它提供了高效的空间和时间复杂度算法,如唯一计数、分位数计算、异常检测和矩阵分析。此外,项目探讨了滑动窗口和图算法在处理实时数据流中的应用。通过合并摘要,DataSketches能够在分布式和低功耗场景中实现数据的高效处理和聚合。
摘要由CSDN通过智能技术生成

DataSketches Research Directions

 https://datasketches.github.io/docs/Research.html
来源与雅虎的开源项目,翻译by Titanssword
结合自己研究方向,可合并摘要,分位数, k 均值聚类的流式算法, 有关图流处理算法, 有关滑动窗口流算法

Introduction

在分析海量数据集时,即使对数据进行非常基本的查询,也可能需要巨大的计算资源(内存和计算时间)。这种查询的例子包括识别频繁项目,唯一计数查询,分位数和直方图查询,矩阵分析任务(例如主成分分析和潜在语义分析)以及更复杂的下游机器学习任务。一旦数据量大了之后,这些计算任务将变得十分困难。也达不到实时性的要求。

然而,在许多情况下,只要近似误差被仔细控制,近似的答案是可以接受的。例如,如果数据是嘈杂的,那么比数据中已经存在的噪声更少的错误的答案与确切的算法一样有用。即使数据是无噪声的,许多高层次的商业决策也不需要对数据有精确的了解:在特定的时间内,有多少唯一身份用户访问某个网站时,可以知道多达 1%的错误,这通常与确切的答案一样有效。

当大致的答案是可以接受的,系统设计人员已经掌握了关于流算法的大量文献。这些算法一次处理海量数据集,并计算数据集的非常小的摘要(也称为草图),从中可以得出准确(但近似)的查询答案。许多流式传输算法甚至对 PB 级大小的数据集也只用了几千字节的空间,并且能够对每个数据进行定时处理,从而实现实时分析。

Mergeable Summaries

理想情况下,数据流算法将生成可合并的摘要,这意味着可以独立处理许多不同的数据流,然后可以快速组合每个数据流计算出的摘要,以获得各种数据集组合的精确摘要(联合,交叉等)。可合并摘要使大量数据集能够以完全分布式和并行的方式自动处理,通过在许多机器上任意分割数据,汇总每个分区,并无缝结合结果。除了与精确的方法相比,大大减少了内存使用量,计算时间和延迟,可合并的摘要也极大地简化了系统架构。它们允许非加性查询ÿ

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值