大数据之道 BitMap (按位存取)

本文探讨大数据处理中的内存存储问题,重点关注BitMap技术。BitMap用于在有限内存中存储大量数据,适用于数据字典、判重和集合运算。通过位数组和哈希函数实现,虽然基础版不支持删除,但counting Bloom filter提供了改进。文章还介绍了C语言中的位操作,并分享了个人感悟和职场心得。
摘要由CSDN通过智能技术生成

一:起因

(0)大数据的预处理那一篇博客,仅仅讲解了如何处理数据,以及清洗数据的原则;并没有讲解大数据处理过程中,数据在内存中的存储问题,这正是本文要关注的重点。

(1)所谓大数据,就是数据量非常的大,到了TB 甚至 PB数量级,处理大数据可以分为以下方法:

2)运用现在非常火的Hadoop 和 spark 之外(其实是一个非常好的成熟的分布式框架 ---- 用的也是分治的思想);

(3)采取hashing 分治 (把大文件分隔为小文件) + hashmap映射 + 堆排/快排/归并排序/基于partition的top10方法;

(4)采用压缩存储的思想 —— Trie树(字典树)或者 BitMap(按位存储) (本文的重点就是如何在现有4G单机上实现大数据处理)

(5)之前已经讲解过了大数据的如何爬取、实验的方法以及大数据的预处理,请参考相关的文章(如下)

(6)大数据处理之道(预处理方法) 、 大数据处理之道 (htmlparser获取数据)

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值