hadoop重命名文件_面试系列：深入理解hadoop架构体系

最新推荐文章于 2021-01-12 04:02:02 发布

Shuphy

最新推荐文章于 2021-01-12 04:02:02 发布

阅读量89

点赞数

文章标签： hadoop重命名文件

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31704137/article/details/112195522

版权

hadoop组件简介

官方文档组织的非常清晰，主要由以下四个组件组成:HDFS、map-reduce、yarn、hadoop-common

hdfs架构

HDFS

分布式文件存储系统，主要特点是：

可以运行在普通低成本硬件之上
并且具备高容错性(硬件容错)
适合高吞吐量的大数据存储，但并不强调低延迟
适合一次写，多次读的场景，不支持随机读写；

map-reduce

map-reduce是一个计算框架，绝大部分的数据处理都可以转化为map、reduce组合，然后利用map-reduce框架进行计算、处理；

yarn

资源管理器，核心的思想时将资源的调度管理与资源监控分割为两个进程，其中一个是ResourceManager，另一个是NodeManager，前者负责资源的分配、后者负责资源监控；

common

hdfs、map-reduce所需要的公共库；

面试题

HDFS的进程构成及其作用；

nameNode进程：负责对外展示文件的层级结构、管理客户端对文件的访问(如：打开、关闭、重命名等)、决定文件block与dataNode的对应关系；

secondNameNode进程：从名字来看，应该是nameNode的back up，然而并不是，其主要作用是协助nameNode管理editLog；

dataNode：主要负责数据存储以及客户端的读写请求以及block的创建、删除等；

详细解释map过程的细节：

map过程主要是实现key-value集合到key-value集合的映射，可以实一对一、一对多、多对多映射；

详细过程是：map -> group -> sorted -> partitioned

group：相同的key放到一起；

sorted：按照key进行排序

partition：对key进行分区，最终分区数量一般等于task数量；

详细解释reduce过程细节：

首先是shuffle，即从map端拉取数据到reducer端；

之后是group，也就是相同的key可能来自于不同的map，所以需要group

之后是sort过程(再map阶段排序的基础之上，进行归并排序即可)

最后是second sort(用户自定义，如果没有自定义则不执行)

最后是reduce过程。

setCombinerClass的作用：

在map端先进行一部分reduce工作，主要优点是减少shuffle成本；但也有一定的局限性，仅仅适用于reduce的输入和输出数据类型相同时；

简单介绍Federation架构：

Federation架构通过多个独立的NameNode实现集群的横向扩展，主要解决了HDFS的吞吐量及承载量受限于单个nameNode，并且无法根据namespace做隔离的弊端。

在存储层，各个nameNode共用统一的DataNode

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop重命名文件_面试系列：深入理解hadoop架构体系

hadoop组件简介官方文档组织的非常清晰，主要由以下四个组件组成:HDFS、map-reduce、yarn、hadoop-commonhdfs架构HDFS分布式文件存储系统，主要特点是：可以运行在普通低成本硬件之上并且具备高容错性(硬件容错)适合高吞吐量的大数据存储，但并不强调低延迟适合一次写，多次读的场景，不支持随机读写；map-reducemap-reduce是一个计算框架，绝大部分的数据处...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。