流挖掘算法介绍00：序——背景，流数据模型，近似算法评估，2-Universal 哈希

最新推荐文章于 2020-03-31 18:06:11 发布

selfind

最新推荐文章于 2020-03-31 18:06:11 发布

阅读量1.5k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Selfind/article/details/8580479

版权

背景假如（假如。。。）我是Facebook，Twitter，或者是Weibo的工程师（额，，，）；每天有上亿用户在这个平台上发牢骚，晒经历，秀恩爱，炫富什么的，记得有每天有上亿条消息，我们就想知道，下面这些问题：最近一天（小时，分钟）大概有多少个不同的人在发牢骚？最近一天（小时，分钟）秀恩爱次数排名前10（100，1000）的用户大概有哪些？假设每个人每天的发推的数

摘要由CSDN通过智能技术生成

背景

假如（假如。。。）我是Facebook，Twitter，或者是Weibo的工程师（额，，，）；

每天有上亿用户在这个平台上发牢骚，晒经历，秀恩爱，炫富什么的，记得有每天有上亿条消息，

我们就想知道，下面这些问题：

最近一天（小时，分钟）大概有多少个不同的人在发牢骚？
最近一天（小时，分钟）秀恩爱次数排名前10（100，1000）的用户大概有哪些？
假设每个人每天的发推的数量是正态分布，找出发推数异常高的用户？

这些问题在数据量小的时候很容易解决，哈希，或者堆什么的记录一下就行了，最后再扫描一遍。

但是当数据量大到100G左右的时候，一台机器都没法放下这么大的哈希表；而且老大也不想加机器去做这么无聊的功能；更不想用Hadoop工具栈的分布式什么的把系统搞得很庞大，工程师人手也不足（话说两百个不到的工程师要支撑几亿用户也很那个啥）。

总的来说现有算法在大数据上有这些缺点

需要扫多次数据；这就需要把数据库库存到硬盘上，又把它读出来，对大数据凡是遇到硬盘都是比较蛋疼的事情；（因为硬盘不够多，读

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
流挖掘算法介绍00：序——背景，流数据模型，近似算法评估，2-Universal 哈希

背景假如（假如。。。）我是Facebook，Twitter，或者是Weibo的工程师（额，，，）；每天有上亿用户在这个平台上发牢骚，晒经历，秀恩爱，炫富什么的，记得有每天有上亿条消息，我们就想知道，下面这些问题：最近一天（小时，分钟）大概有多少个不同的人在发牢骚？最近一天（小时，分钟）秀恩爱次数排名前10（100，1000）的用户大概有哪些？假设每个人每天的发推的数
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。