大数据算法 chap-3 亚线性算法例析

_卡卡龙

于 2021-05-16 16:25:53 发布

阅读量2.7k

点赞数

分类专栏：大数据算法文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/terae/article/details/116851176

版权

本文探讨了在大数据的数据流模型中如何使用亚线性算法处理问题。首先介绍了Misra Gries(MG)算法，用于寻找数据流中的频繁元素，通过限制计数器数量达到空间亚线性效果。接着讨论了最小生成树问题，提出了时间亚线性算法的思想，利用子图联通分量估算最小生成树权重。这些算法在大数据场景下提供了时间和空间效率的平衡解决方案。

摘要由CSDN通过智能技术生成

亚线性算法例析

3.1 数据流中频繁元素(空间亚线性)
- Misra Gries(MG)算法
3.2 最小生成树

3.1 数据流中频繁元素(空间亚线性)

大数据的数据流模型

数据只能顺序扫描1次或几次
能够使用的内存是有限的
希望通过维护一个内存结果(数据概要)来给出相关性质的一个有效估计
维护中间结果
数据流模型适用于大数据
顺序扫描数据仅一次（时间保障）
内存亚线性（空间保障）
来自某个域中的元素序列
<x₁, x₂, x₃, x₄, … >
有限的内存:
内存<< 数据的规模
通常 O(log^kn) 或 O(n^α) for α<1
快速处理每个元素

从数据流中计算什么？

容易计算的函数: min, max, sum, …
使用单个寄存器 s, 直接更新
频繁元素：元素出现多次，希望找到出现最频繁的元素

Zipf原则: 典型的频率分布是高度偏斜的，只有少数频繁元素.
最多10%的元素占元素总个数的 90%.

Misra Gries(MG)算法

处理元素x
If 已经为x分配计数器,增加之
Else If 没有相应计数器，但计数器个数少于k,为x分配计数器，并设为1.
Else, 所有计数器减1.删除值为0的计数器.

一个计数器x 减少了几次?
⟺ 我们有几个减少计数器的步骤？
整个结构的权重(计数器的和)记作m′
整个数据流的权重(全部元素的数量)是m
每一个计数器降低的步骤减少k个计数，但是并未计入输入元素的此次出现，即k+1 次未计入的元素出现.
⇒ 最多有

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
大数据算法 chap-3 亚线性算法例析

亚线性算法例析3.1 数据流中频繁元素(空间亚线性)Misra Gries(MG)算法3.1 数据流中频繁元素(空间亚线性)大数据的数据流模型数据只能顺序扫描1次或几次能够使用的内存是有限的希望通过维护一个内存结果(数据概要)来给出相关性质的一个有效估计维护中间结果数据流模型适用于大数据顺序扫描数据仅一次（时间保障）内存亚线性（空间保障）来自某个域中的元素序列<x1, x2, x3, x4, … >有限的内存:内存<< 数据的规模通常 O(logkn)
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。