大数据
文章平均质量分 81
ynztpwy
这个作者很懒,什么都没留下…
展开
-
大数据面试题
本文为转的,怕忘记了 还有: http://blog.csdn.net/ycl1989y/article/details/7796250 第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模10转载 2015-04-23 11:13:26 · 533 阅读 · 0 评论 -
用hadoop-streaming 运行python map-reduce程序
简介: hadoop是java写的,所以,运行hadoop经常也值直接支持java。这让我们这种不熟悉java的程序员很是心碎啊。还好,Doug Cutting大神也没有直接放弃非java程序员这块庞大的用户需求,提供了各种各样的接口给那些不熟悉java的程序员使用。下面我们要介绍的是各种接口中的一种:用hadoop-streaming来运行非java的各式map-reduce程序。原创 2015-05-09 20:25:57 · 972 阅读 · 0 评论 -
hadoop的HDFS和map-reduce
此处主要是将HDFS和map-reduce的基本原理写在这儿,免得以后忘记了找不到 HDFS: 大体框架如下: NameNode:记录文件在DataNode的位置信息和元数据信息,类似index,真正的数据存储在DataNode节点 DataNode:存储的管理者,一次写入,多次读取(好处:不需要考虑一致性),将程序划分为许多大小为64M的数据块,分布并冗余存放在各个DataNode节原创 2015-05-10 14:19:25 · 1201 阅读 · 0 评论 -
TOP-K排序算法,从海量不重复数据中找出最大/小的K个数
如题,TOP-K排序的主要功能是找出一堆不重复数据中的最小或最大的几个数,此处我们介绍这种类型题目的几种解法: 一.最大最小堆,最大堆结构里面的每一个数不都是小于root的值么?和我们要解决的问题很像。由此,我们可以构造一个堆,并且用它来存储我们需要找的那几个数。有这么一个动态flash就很好地揭示了其中关系: http://www.benfrederickson.com/heap-visual原创 2015-04-23 12:08:36 · 3877 阅读 · 0 评论