大数据处理
SurgePing
不要让任何事情成为你不去学习的理由
展开
-
hash
1.引子 问题:搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 问题解转载 2012-11-01 11:53:03 · 702 阅读 · 0 评论 -
介绍一下海量数据的处理方法
1.Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对 于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这 个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。所转载 2013-01-25 10:53:07 · 666 阅读 · 0 评论 -
教你如何迅速秒杀掉:99%的海量数据处理面试题 .
面试querymapreducefilterurl文档 目录(?)[+] 教你如何迅速秒杀掉99的海量数据处理面试题前言何谓海量数据处理第一部分从setmap谈到hashtablehash_maphash_set 第二部分处理海量数据问题之六把密匙密匙一分而治之Hash映射 Hash统计 堆快速归并排序密匙二双层桶划分密匙三Bloom filterBitmap Bloo转载 2013-04-25 15:49:35 · 821 阅读 · 0 评论 -
分布式集群技术
1.分布式集群 1.1.分布式系统架构 下图分布式系统架构好处有两点:一是系统可以适用于各种规模的企业,(图中每个节点代表一台应用服务器,并不见得是一台物理意义上的计算机);二是可以方便地进行服务器管理,管理员可以在任何一个远程客户端上登录,基于Web浏览器进行服务器管理。转载 2014-07-18 09:58:13 · 6282 阅读 · 0 评论 -
分布式与集群的区别
简单说,分布式是以缩短单个任务的执行时间来提升效率的,而集群则是通过提高单位时间内执行的任务数来提升效率。 例如: 如果一个任务由10个子任务组成,每个子任务单独执行需1小时,则在一台服务器上执行改任务需10小时。 采用分布式方案,提供10台服务器,每台服务器只负责处理一个子任务,不考虑子任务间的依赖关系,执行完这个任务只需一个小时。(这种工作模式的一个典型代表就是Hadoop的Map/Re转载 2014-07-18 09:53:36 · 719 阅读 · 0 评论