算法
文章平均质量分 79
快乐程序员
从事hadoop/hbase/hive/impala运维和研究
展开
-
十道海量数据处理面试题与十个方法大总结
海量数据处理:十道面试题与十个海量数据处理方法总结作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随时交流、指正。出处:http://blog.csdn.net/v_JULY_v。 第一部分、十道海量数据处理面试题1、海量日志数据转载 2013-10-29 23:12:40 · 1075 阅读 · 0 评论 -
BloomFilter——大规模数据处理利器
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例: 假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”。转载 2013-11-15 14:28:38 · 1089 阅读 · 0 评论 -
RBTree
原文地址:http://blog.sina.com.cn/s/blog_60707c0f01011zz1.html0 定义 红黑树是一棵二叉查找树,树中的结点分为外结点和内结点,外结点本质就是一个NIL空指针叶结点,我们一般把外结点忽略画出来,内结点用来存储关键字。结点新增一个颜色域为红色或黑色,满足下列性质:①每个结点一定是红色或者黑色;②根结点一定是黑色的;③转载 2013-12-01 20:39:01 · 1135 阅读 · 0 评论 -
经典排序算法
1、经典排序算法 - 快速排序Quick sort原理,通过一趟扫描将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行,以此达到整个数据变成有序序列举个例子如无序数组[6 2 4 1 5 9]a),先把第一项[6]取出来,用[6]依次与其余项进行比较,如果比[6]小就放转载 2013-12-02 23:01:15 · 1180 阅读 · 0 评论 -
怎样从10亿查询词找出出现频率最高的10个
原文地址:http://dongxicheng.org/big-data/select-ten-from-billions/1. 问题描述在大规模数据处理中,常遇到的一类问题是,在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常称为“top K”问题,如:在搜索引擎中,统计搜索最热门的10个查询词;在歌曲库中统计下载率最高的前10首歌等等。转载 2014-03-10 22:22:46 · 1537 阅读 · 0 评论 -
如何使用bloomfilter构建大型Java缓存系统
背景在如今的软件当中,缓存是解决很多问题的一个关键概念。你的应用可能会进行CPU密集型运算。你当然不想让这些运算一边又一边的重复执行,相反,你可以只执行一次, 把这个结果放在内存中作为缓存。有时系统的瓶颈在I/O操作上,比如你不想重复的查询数据库,你想把结果缓存起来,只在数据发生变化时才去数据查询来更新缓存。与上面的情况类似,有些场合下我们需要进行快速的查找来决定如何处理新来的请求转载 2014-09-16 12:17:10 · 1524 阅读 · 0 评论