- 简述hadoop1.2.0的安装步骤
- 安装ssh(免登陆)
- 配置hosts文件(IP、名称的映射)
- 分发到各个节点
- 安装JDK 配置环境变量(1.6x版本)
- 安装hadoop并修改配置文件
- hadoop-env.xml(JDK)
- core-site.xml(namenode配置)
- hdfs-site.xml(hdfs配置)
- mapred-site.xml(jobtracker配置)
- 指定master(masterclone)和slaves
- 分发JDK、hadoop相关配置
- 格式化namenode
- Hadoop的核心模块和相应的进程
- Hdfs: NameNode、SecondaryNameNode、DataNode
- Mapreduce: ResourceManager、NodeManager
- SecondaryNameNode的作用
- 它不是namenode的冗余守护进程,而是提供周期检查点和清理任务。动态合并NameNode的EDITS文件和images文件
- Edits和fsimages文件的作用
- Fsimages记录namenode的元数据信息。
- Edits记录当前操作的元数据。
- 结合图描述hdfs写原理
- 流程分析
- 使用HDFS提供的客户端开发库Client,向远程的Namenode发起RPC请求;
- Namenode会检查要创建的文件是否已经存在,创建者是否有权限进行操作,成功则会为文件创建一个记录,否则会让客户端抛出异常;
- 当客户端开始写入文件的时候,会将文件切分成多个packets,并在内部以数据队列“data queue”的形式管理这些packets,并向Namenode申请新的blocks,获取用来存储replicas的合适的datanodes列表,列表的大小根据在Namenode中对replication的设置而定。
hadoop知识总结(面试)
最新推荐文章于 2024-03-12 16:43:37 发布