海量日志数据处理

最新推荐文章于 2022-08-16 00:23:31 发布

大数据程序袁

最新推荐文章于 2022-08-16 00:23:31 发布

阅读量687

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/hua_yuan2015/article/details/105809485

版权

大数据专栏收录该内容

16 篇文章 0 订阅

订阅专栏

1、海量日志TOPN

对不能完全加载到内存中处理的海量数据，考虑“分而治之”+Hash的算法思想
1.按照标识字段的Hash(IP)%1024(根据具体情况设置)值，把海量日志分别存储到1024个小文件中（每个标识所有数据只会存储到1个小文件中）。
2.对于每一个小文件，可以构建一个标识字段为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个标识字段；
3.可以得到1024个小文件中的出现次数最多的标识，再依据常规的排序算法得到总体上出现次数最多的标识字段；

2、海量数据去重排序

可采用bitmap(位图法)

bitmap思想：就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。
eg：

假设我们要对0-7内的5个元素(4,7,2,5,3)排序（这里假设这些元素没有重复）。那么我们就可以采用Bit-map的方法来达到排序的目的。要表示8个数，我们就只需要8个Bit（1Bytes），首先我们开辟1Byte的空间，将这些空间的所有Bit位都置为0
然后遍历这5个元素，首先第一个元素是4，那么就把4对应的位置为1（可以这样操作 p+(i/8)|(0×01<<(i%8)) 当然了这里的操作涉及到Big-ending和Little-ending的情况，这里默认为Big-ending）,因为是从零开始的，所以要把第五位置为1。
然后再处理第二个元素7，将第八位置为1,，接着再处理第三个元素，一直到最后处理完所有的元素，将相应的位置为1。
然后我们现在遍历一遍Bit区域，将该位是一的位的编号输出（2，3，4，5，7），这样就达到了排序的目的。
其实就是把计数排序用的统计数组的每个单位缩小成bit级别的布尔数组

大数据程序袁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
海量日志数据处理

1、海量日志TOPN对不能完全加载到内存中处理的海量数据，考虑“分而治之”+Hash的算法思想1.按照标识字段的Hash(IP)%1024(根据具体情况设置)值，把海量日志分别存储到1024个小文件中（每个标识所有数据只会存储到1个小文件中）。2.对于每一个小文件，可以构建一个标识字段为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个标识字段；3.可以得到...
复制链接

扫一扫