海量数据处理常用数据结构及方法

最新推荐文章于 2023-02-02 14:30:22 发布

IT_Linux

最新推荐文章于 2023-02-02 14:30:22 发布

阅读量2.1k

点赞数

分类专栏：算法与数据结构文章标签：海量数据数据结构大数据面试 mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pngynghay/article/details/22828047

版权

在大数据时代，处理海量数据成为面试热门。本文介绍了几种常用方法：bitmap用于快速查找和判重，堆适用于求海量数据的前n大，trie树处理大量重复数据，hash用于快速查找和删除，分而治之是通用策略，双层桶划分用于确定范围，Bloom filter实现数据判重，MapReduce处理大规模数据。

摘要由CSDN通过智能技术生成

大数据时代，海量数据的分析也成为了各大公司面试的热点问题。本文总结了几种常用的方法。

数据结构

bitmap

适用范围：可进行数据的快速查找，判重，删除，一般来说数据范围是int的10倍以下
基本原理及要点：使用bit数组来表示某些元素是否存在；判重一般采用2-bitmap，即采用两个bit位来表示一个数据出现的次数（00表示未出现、01表示出现一次、10表示出现两次及其以上）

堆

这里的堆不是我们提到的堆栈里的堆，而是用来排序的堆。

适用范围：海量数据前n大，并且n比较小，堆可以放入内存
基本原理及要点：最大堆求前n小，最小堆求前n大。维护一个拥有n个节点的堆，依次遍历剩下的元素，与堆顶元素比较，适当的时候替换堆顶元素，并调整堆。另外双堆可以用来维护中位数。

trie树

适用范围：数据量大，重复多，但是数据种类小可以放入内存
基本原理及要点：节点孩子的表示方式

hash

适用范围：快速查找、删除的基本数据结构，通常需要总数据量可以放入内存
基本原理及要点：hash函数选择，针对字符串、整数、排列等具体相应的hash方法；hash冲突的解决方式。

其他方法

分而治之

适用范围：几乎可用于所有的问题，经常

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

IT_Linux CSDN认证博客专家 CSDN认证企业博客

码龄12年

77: 原创

18万+: 周排名

199万+: 总排名

24万+: 访问

: 等级

3183: 积分

31: 粉丝

34: 获赞

10: 评论

188: 收藏

私信

关注

热门文章

分类专栏

多线程 4篇
socket 4篇
Linux kernel 7篇
C 15篇
C++ 6篇
算法与数据结构 27篇
tools 15篇
shell 12篇
cpp设计模式
Redis 2篇
数据库 4篇
综合 12篇

最新评论

AVL树及C语言实现
CL820211: 讲的很棒！谢谢
AVL树及C语言实现
Ui_none: 感谢分享！不过有一个问题就是删除结点时只是单纯删除并释放结点空间，没有涉及再次旋转以适应AVL树（大概），不过还是感谢分享ww
内存池及其实现
plgkm6: 您好，下载连接失效了，请问能否补发？
hash算法原理及常见函数
言若、: 感谢分享，数字分析法的讲解很有帮助。
boost.any实现任意类型存储
dsfour: 好文章！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。