1、hadoop运行的原理?
2、mapreduce的原理?
3、HDFS存储的机制?
4、举一个简单的例子说明mapreduce是怎么来运行的 ?
5、面试的人给你出一些问题,让你用mapreduce来实现?
比如:现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。
6、hadoop中Combiner的作用?
7.如何确认Hadoop集群的健康状况
hadoop自带了两个JSP页面,使得可以监控集群的全面的健康状况和job活动。
使用以下URL确认hadoop性能统计
Hadoop job tracker:
http://[jobtracker机器的URL]:50030/jobtracker.jsp
Hadoop DFS健康页面:
http://[jobtracker机器的URL]:50070/dfshealth.jsp