海量数据处理的相关问题整理

最新推荐文章于 2020-11-16 17:12:18 发布

Strivee_

最新推荐文章于 2020-11-16 17:12:18 发布

阅读量229

点赞数

分类专栏：总结复习数据结构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41026740/article/details/101104084

版权

一、海量日志数据，如何提取出某日访问百度次数最多的那个IP？

答：分而治之 + hash映射 + 排序算法

IP地址最多有2^32=4G种取值情况。可以采用“分而治之”的思想，首先利用哈希方法将所有IP地址对1024取余（ip%1024），得到1024个4MB的IP地址。
对于每个小文件构建一个ip为key，出现次数为value的hash map（ip->key、hash map->value），通过这样可以找到当前出现次数最多的IP地址。
再对1024个文件中分别出现次数最多的IP地址进行排序算法，就可以找到某日访问百度次数最多的那个IP地址了。

二、假设现在有一千万个检索串的查询记录（去重后不超过三百万个，重复度越高说明越热门）。统计最热门的10个查询串，要求使用的内存不能超过1G。

答：典型的topK算法。 hash表 + 堆排序

首先通过hash表对这一千万个检索串进行统计，时间复杂度O(n).
再通过堆这个数据结构，找到出现次数最多的前10（topK）个查询串，时间复杂度O(nlogK).即就是借助堆结构，我们可以在log量级的时间内查找、调整、移动等。因此维护一个K大小的小根堆（该题目中是10），然后对这三千万的查询串进行遍历，分别跟堆元素进行对比。总共的时间复杂度是O(n) + O(n*logK).

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
海量数据处理的相关问题整理

一、海量日志数据，如何提取出某日访问百度次数最多的那个IP？答：分而治之 + hash映射 + 排序算法IP地址最多有2^32=4G种取值情况。可以采用“分而治之”的思想，首先利用哈希方法将所有IP地址对1024取余（ip%1024），得到1024个4MB的IP地址。对于每个小文件构建一个ip为key，出现次数为value的hash map（ip->key、hash map...
复制链接

扫一扫

专栏目录

Strivee_ CSDN认证博客专家 CSDN认证企业博客

码龄7年

88: 原创

39万+: 周排名

162万+: 总排名

16万+: 访问

: 等级

2018: 积分

61: 粉丝

131: 获赞

13: 评论

459: 收藏

私信

关注

热门文章

分类专栏

C语言 19篇
C++ 12篇
数据结构 13篇
剑指offer刷题 19篇
Linux 23篇
mysql数据库 3篇
总结复习 9篇
秋招面经 2篇

最新评论

【mysql数据库】意向锁与哪些锁冲突
让人心疼的兔八个: 我觉得意向锁是为解决加表锁问题的一种机制，当我们要向一张表加表锁时，会有三种情况：1此表已有表锁，那么直接pass或阻塞等待2此表有行锁。3什么锁都没有，直接可以获得锁进行相应操作。那么问题就是第二种情况，系统怎么判断有行锁呢，只能一行行去判断，太影响效率。所以他们想了一办法，就是在加行锁时，同时在表外加一个标志，标志此表已有行锁，这样我们就可以不用遍历每一行了，这个标志不知道什么原因也被称为锁，叫tm什么意向锁。引入意向锁机制后，还不能影响其他情况的互斥兼容性，所以为啥ix is 之间互相兼容，可以理解他们压根不是锁，而他们与 x s的兼容性，则是根据各自代表的意思不影响以前x s的兼容性而体现出来的兼容性。所以说你的问题是“意向锁为啥不会和行级别锁兼容”，也就是在问“目前我这表有几行读锁或写锁，又来一个事务也是行锁，会不会冲突”，意向锁它会告诉你不知道，如果是同一行或许会冲突、如果不是同一行就不会冲突，为啥意向锁不知道，因为从一开始它就不知道哪几行有行锁，它只是知道有，所以这种情况它解决不了判断不了，只能放行，后面让系统自己去判断好了，这个因为锁定行了，所以不会影响效率，也用不着它了。
【mysql数据库】意向锁与哪些锁冲突
hengxinn: 同样疑惑
【mysql数据库】意向锁与哪些锁冲突
yanbodu: 意向锁为什么不会和行级锁冲突，如果意向锁锁定的是同一行，不是也会冲突吗
【mysql数据库】意向锁与哪些锁冲突
HITSZstudent: 感谢了
数据结构----C语言八种排序算法（冒泡排序，选择排序，直接插入排序，希尔排序，快速排序，堆排序，二路归并排序，基数排序）
居玛地力: 代码的错错误太多了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。