hadoop面试-1

1、hadoop运行的原理?

     hadoop就是map 和 reduce的过程。服务器上一个目录节点+多个数据节点。将程序传送到各个节点,在数据节点上进行计算

2、mapreduce的原理?

     将数据存储到不同节点,用map方式对应管理,在各个节点进行计算,采用reduce进行合并结果集

3、HDFS存储的机制?

     就是通过java程序和目录节点配合,将数据存放到不同数据节点上

4、举一个简单的例子说明mapreduce是怎么来运行的 ?

       分布式注重的是计算,不是每个场景都适合

5、面试的人给你出一些问题,让你用mapreduce来实现?

      比如:现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。

   

6、hadoop中Combiner的作用?

     combiner最基本是实现本地key的聚合,对map输出的key进行排序,value进行迭代。

     map: (K1, V1) → list(K2, V2) 
     combine: (K2, list(V2)) → list(K2, V2)
     reduce: (K2, list(V2)) → list(K3, V3)

    combiner视业务情况来用,减少MAP->REDUCE的数据传输,提高shuffle速度。就是在map中再做一次reduce操作。

 

入门:
知道MapReduce大致流程,map, shuffle, reduce
知道combiner, partition作用,设置compression
搭建hadoop集群,master/slave 都运行那些服务
HDFS,replica如何定位
版本0.20.2->0.20.203->0.20.205, 0.21, 0.23, 1.0. 1
新旧API不同

进阶:.
Hadoop 参数调优,cluster level: JVM, map/reduce slots, job level: reducer #,
memory, use combiner? use compression?
pig latin, Hive 简单语法
HBase, zookeeper 搭建

最新:
关注cloudera, hortonworks blog
next generation MR2框架
高可靠性, namenode: avoid single point of failure.
数据流系统:streaming storm(twitter).

演练算法:
wordcount
字典同位词

翻译sql语句 select count(x) from a group by b;


经典的一道题:

现有1亿个整数均匀分布,如果要得到前1K个最大的数,求最优的算法。­
(先不考虑内存的限制,也不考虑读写外存,时间复杂度最少的算法即为最优算法)

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值