hadoop学习笔记(1)

最新推荐文章于 2024-07-25 16:47:15 发布

Andy-L

最新推荐文章于 2024-07-25 16:47:15 发布

阅读量1.2k

点赞数 1

分类专栏： Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011045817/article/details/51133280

版权

Hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.HDFS架构：

NameNode保存元数据信息，包括文件的owner，permission，block存储信息等。存储在内存。

2.HDFS设计思想

文件以块的形式存贮，即block，大小为64M，大于64的文件分块，小于64则为1块。文件在上传的时候会产生副本，副本与原文件在不同的节点上，这样当一个节点挂掉后不至于丢失文件。节点挂掉后会在空闲节点生成损失的文件，保证副本不会少。（容错性）

写文件前需要先创建文件，NameNode先获得文件信息，再告诉DistributedFileSystem上传的文件需要分为多少个block。写文件时NameNode告诉FSDataOutputStream写在哪。DataNode通过心跳包告诉NameNode自己是否空闲。

客户端写入数据到DataNode，客户端不产生副本，副本由DataNode根据副本分配策略，将文件复制到其他DataNode。

MapReducehe

每一个分片（split）都有一个线程去执行，并发地。

MR执行分为split（分片），map，shuffling，reduce四个步骤。最后生成的part保存在HDFS中。整个过程把HDFS的原始数据经过处理再存放。

MR执行过程如图：

杂乱的数据线split分片，通过mapping（程序员实现）计算输出和合并排序（shuffling）再依次传给reduce线程计算。

map的结果储存在内存，然后将内存中的数据partition（分区，按照程序partition中写的规则或者默认的分区规则），并排序，易写到磁盘。这部分操作都是属于一个Map Task，即在一个节点上的。reduce如何解决数据倾斜问题？通过partition的分配策略

Hadoop1与Hadoop2区别：

HA：主/备模式的NameNode，避免了Hadoop1中NameNode单点故障问题。

Federation：相当于NameNode的集群，针对数据量巨大的公司。

yarn：Hadoop的统一一资源管理系统，Hadoop2.X新增，个人理解是为了解耦，增加的一层

ZK即Zookeeper：管理NameNode，通过信条连接监控NameNode的情况，active的NameNode挂掉后投票选举产生新的active NameNode。Zookeeper为基数个。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
hadoop学习笔记(1)

1.HDFS架构：NameNode保存元数据信息，包括文件的owner，permission，block存储信息等。存储在内存。2.HDFS设计思想文件以块的形式存贮，即block，大小为64M，大于64的文件分块，小于64则为1块。文件在上传的时候会产生副本，副本与原文件在不同的节点上，这样当一个节点挂掉后不至于丢失文件。节点挂掉后会在空闲节点生成损失的文件，
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。