数据处理和分析
数据相关
master-dragon
weixin:dwl_1270530306
展开
-
海量数据处理问题。。。
蓄水池抽样算法在不知道文件总行数的情况下,如何从文件中随机的抽取一行?给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)?top k问题YoferZhang http://blog.csdn.net/zyq522376829/article/details/4转载 2016-09-16 19:45:52 · 461 阅读 · 0 评论 -
druid.io 列式数据存储和简单分析 TODO
数据 和 列存储基数字典编码倒排索引BitMap查询1: 所有记录中找 city=‘shanghai’ and product=‘cellphone’ 的行city=‘shanghai’ 的 bitmap 1,0,1,0,0,1与product=‘cellphone’ 的bitmap 1,1,0,1,0,1结果1,0,0,0,0,1即 出现在 第1行和第6行查询2:...原创 2019-08-12 23:08:09 · 425 阅读 · 0 评论