哈希涉及到的面试题

最新推荐文章于 2024-07-16 10:21:55 发布

Y～哈哈哈

最新推荐文章于 2024-07-16 10:21:55 发布

阅读量676

点赞数 3

分类专栏：复习总结

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YL970302/article/details/89356372

版权

本文介绍了如何利用哈希解决海量数据处理中的面试问题，如提取访问百度次数最多的IP和统计热门查询。通过分而治之、hash映射、hash_map统计和堆排序等方法，有效处理大规模数据并找到最热门的元素。同时，文中还提供了其他类似问题的解题思路，包括寻找重复次数最多的元素和处理大量字符串等。

摘要由CSDN通过智能技术生成

问题实例（海量数据处理）

hash 表在海量数据处理中有着广泛的应用，我们来看一道百度面试题：

题目一：海量日志数据，提取出某日访问百度次数最多的那个IP。

方案：IP的数目还是有限的，最多2^32个，所以可以考虑使用hash将ip直接存入内存，然后进行统计。

方法介绍
对于海量数据而言，由于无法一次性装进内存处理，导致我们不得不把海量的数据通过hash映射分割成相应的小块数据，然后再针对各个小块数据通过hash_map进行统计或其它操作。

那什么是hash映射呢？
简单来说，就是为了便于计算机在有限的内存中处理big数据，我们通过一种映射散列的方式让数据均匀分布在对应的内存位置(如大数据通过取余的方式映射成小数存放在内存中，或大文件映射成多个小文件)，而这个映射散列方式便是我们通常所说的hash函数，设计的好的hash函数能让数据均匀分布而减少冲突。

一、海量日志数据，提取出某日访问百度次数最多的那个IP

分析：百度作为国内第一大搜索引擎，每天访问它的IP数量巨大，如果想一次性把所有IP数据装进内存处理，则内存容量明显不够，故针对数据太大，内存受限的情况，可以把大文件转化成（取模映射）小文件，从而大而化小，逐个处理。

换言之，先映射，而后统计，最后排序。

解法：具体分为以下3个步骤

1.分而治之/hash映射
首先把这一天访问百度日志的所有IP提取出来，然后逐个写入到一个大文件中，接着采用映射的方法，比如%1000，把整个大文件映射为1000个小文件。

2.hash_map统计
当大文件转化成了小文件，那么我们便可以采用hash_map(ip, value)来分别对1000个小文件中的IP进行频率统计，再找出每个小文件中出现频率最大的IP。

3.堆/快速排序
统计出1000个频率最大的IP后，依据各自频率的大小进行排序(可采取堆排序)，找出那个频率最大的IP，即为所求。

注：Hash取模是一种等价映射，不会存在同一个元素分散到不同小文件中去的情况，即这里采用的是%1000算法，那么同一个IP在hash后，只可能落在同一个文件中，不可能被分散的。

二、寻找热门查询，300万个查询字符串中统计最热门的10个查询

原题：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录，请你统计最热门的10个查询串，要求使用的内存不能超过1G。

<

最低0.47元/天解锁文章

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Y～哈哈哈 CSDN认证博客专家 CSDN认证企业博客

码龄7年

159: 原创

5万+: 周排名

194万+: 总排名

26万+: 访问

: 等级

3913: 积分

61: 粉丝

183: 获赞

23: 评论

559: 收藏

私信

关注

热门文章

分类专栏

golang 2篇
docker 1篇
Linux 43篇
数据结构 15篇
C++ 32篇
java 5篇
STL 5篇
LeetCode 3篇
C语言 22篇
计算机网络 10篇
算法分析 5篇
复习总结 40篇
操作系统 2篇
剑指offer 2篇
秋招面经总结

最新评论

传指针和传引用的区别以及指针和引用的区别
尛廆噹傢: 你确定不会么，你看看传指针的时候函数里面是对指针指向的值做了交换，怎么可能不会改变ab的值。再者，把传引用的函数注释掉，跑一下就发现传指针是会改变两者的值的
传指针和传引用的区别以及指针和引用的区别
xiaofenmgyi: 那是因为引用已经改变了ab的值。所以传指针的时候得到的值和AB是反的。如果先调用传指针，然后在调用传引用，你会发现传指针不会改变主函数的值。
传指针和传引用的区别以及指针和引用的区别
豆得儿不是猫: [code=cpp] #include <iostream> using namespace std; void swapByRef(int &x, int &y); void swapByPtr(int *x, int *y); int main(){ int a =10; int b =20; swapByRef(a,b); std::cout<<"swapByRef(a,b);"<<std::endl; std::cout<<"a = "<<a<<std::endl; std::cout<<"b = "<<b<<std::endl; swapByPtr(&a,&b); std::cout<<"swapByPtr(a,b);"<<std::endl; std::cout<<"a = "<<a<<std::endl; std::cout<<"b = "<<b<<std::endl; return 0; } void swapByRef(int &x, int &y){ int t = x; x = y; y = t; } void swapByPtr(int *x, int *y){ int t = *x; *x = *y; *y = t; } [/code] 不管传指针还是传引用，被调函数中改变的值都会影响主函数
中缀表达式求前缀和后缀的三种方法
m0_74449687: 构建二叉树时没有括号，而括号优先级最高，用“最低优先级法”会出问题的，应该直接看
继承——菱形继承
哎哟哟爱民谣: 请问，类的分布图是怎么生成的啊

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。