一份关于Hadoop的面试问答题

本文介绍了Hadoop的安装配置步骤、集群中的关键进程及其作用、常见调度器的工作原理、Hive元数据的保存方式、Hadoop的二级排序实现、Join的多种方法以及MapReduce中Combiner和Partitioner的功能,是Hadoop面试的重要参考资料。
摘要由CSDN通过智能技术生成

Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算,下面看看一般情况下,关于Hadoop的面试是会问哪些问题,以及该怎么回答。

1. 简单描述如何安装配置一个apache开源版hadoop,只描述即可,无需列出完整步骤,能列出步骤更好。

1) 安装JDK并配置环境变量(/etc/profile)
2) 关闭防火墙
3) 配置hosts文件,方便hadoop通过主机名访问(/etc/hosts)
4) 设置ssh免密码登录
5) 解压缩hadoop安装包,并配置环境变量
6) 修改配置文件($HADOOP_HOME/conf)
hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml
7) 格式化hdfs文件系统 (hadoop namenode -format)
8) 启动hadoop ($HADOOP_HOME/bin/start-all.sh)
9) 使用jps查看进程

2. 请列出正常工作的hadoop集群中hadoop都分别需要启动那些进程,他们的作用分别是什么,尽可能写的全面些。

1) NameNode: HDFS的守护进程,负责记录文件是如何分割成数据块,以及这些数据块分别被存储到那些数据节点上,它的主要功能是对内存及IO进行集中管理
2) Secondary NameNode:辅助后台程序,与NameNode进行通信,以便定期保存HDFS元数据的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值