hadoop面试-1

最新推荐文章于 2018-03-13 22:13:39 发布

xiao_fu_ying

最新推荐文章于 2018-03-13 22:13:39 发布

阅读量1.5k

点赞数

分类专栏：云计算-Hadoop

云计算-Hadoop 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1、hadoop运行的原理?

hadoop就是map 和 reduce的过程。服务器上一个目录节点+多个数据节点。将程序传送到各个节点，在数据节点上进行计算

2、mapreduce的原理?

将数据存储到不同节点，用map方式对应管理，在各个节点进行计算，采用reduce进行合并结果集

3、HDFS存储的机制?

就是通过java程序和目录节点配合，将数据存放到不同数据节点上

4、举一个简单的例子说明mapreduce是怎么来运行的 ?

分布式注重的是计算，不是每个场景都适合

5、面试的人给你出一些问题,让你用mapreduce来实现？

比如:现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。

6、hadoop中Combiner的作用?

combiner最基本是实现本地key的聚合，对map输出的key进行排序，value进行迭代。

     map: (K1, V1) → list(K2, V2)
     combine: (K2, list(V2)) → list(K2, V2)
    reduce: (K2, list(V2)) → list(K3, V3)

combiner视业务情况来用，减少MAP->REDUCE的数据传输，提高shuffle速度。就是在map中再做一次reduce操作。

入门：
知道MapReduce大致流程，map, shuffle, reduce
知道combiner, partition作用，设置compression
搭建hadoop集群，master/slave 都运行那些服务
HDFS，replica如何定位
版本0.20.2->0.20.203->0.20.205, 0.21, 0.23, 1.0. 1
新旧API不同

进阶：.
Hadoop 参数调优，cluster level: JVM, map/reduce slots, job level: reducer #,
memory, use combiner? use compression?
pig latin, Hive　简单语法
HBase, zookeeper 搭建

最新：
关注cloudera, hortonworks blog
next generation MR2框架
高可靠性,　namenode: avoid single point of failure.
数据流系统：streaming storm(twitter).

演练算法：
wordcount
字典同位词

翻译sql语句 select count(x) from a group by b;

经典的一道题：

现有1亿个整数均匀分布，如果要得到前1K个最大的数，求最优的算法。
（先不考虑内存的限制，也不考虑读写外存，时间复杂度最少的算法即为最优算法）

xiao_fu_ying

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hadoop面试-1

1、hadoop运行的原理? hadoop就是map 和 reduce的过程。服务器上一个目录节点+多个数据节点。将程序传送到各个节点，在数据节点上进行计算2、mapreduce的原理? 将数据存储到不同节点，用map方式对应管理，在各个节点进行计算，采用reduce进行合并结果集3、HDFS存储的机制? 就是通过java程序和目录节点配合，将数据存放到
复制链接

扫一扫

专栏目录