Hadoop(1)

最新推荐文章于 2021-06-23 19:36:52 发布

qq_30130043

最新推荐文章于 2021-06-23 19:36:52 发布

阅读量156

点赞数

HDFS详解:
1.三个进程
NameNode (NN): 名称节点 --》主节点，client第一个操作的对象
DataNode (DN): 数据节点 --》存储数据的
Secondary NameNode(SNN): 第二名称节点

2.block(数据块)
大小:
64M      以前的版本都是64
128M   新版本默认128，可以自己控制参数参数: dfs.blocksize控制

3.副本数
dfs.replication : 默认3

一个块会变为3个块

130M =（ 128 + 2 ） * 3

hadoop2.x一般公司就3个
hadoop3.0 : 1.5(新特性纠删码) 1+0.5

4.案例
1个文件130M : 128M 2M 两个块
实际存储: 130M*3
多少个块: 6

1桶水130ml, 两个瓶子(128ml规格)，第一个装满了128，第二个瓶子只装2ml,实际存储了多少的水？130ml

悬念(面试题):
多出2M，占一个数据块，会有问题？
答案:会维护在NN的内存，会可能oom

比如文件都是小文件，3M、5M ?
合并小文件/设计的时候，尽量让一个文件是120--128M

5.架构设计
NameNode: 文件系统的命名空间 (面试题)
1.文件名称
2.文件目录结构
3.文件的属性(权限创建时间副本数)

4.文件对应哪些数据块--》这些数据块对应哪些DataNode节点上
不会持久化存储这个映射关系，是通过集群的启动和运行时，datanode定期发送blockReport给NN,

以此NN在【内存】中动态维护这种映射关系。

好处：动态，不持久化

存储:维护文件系统树及整个树内的所有文件和目录，这些信息以两种文件形式永久保存在本地磁盘上
命名空间镜像文件fsimage+编辑日志editlog

DataNode:
存储: 数据块+数据块校验和
与NN通信:
1.每隔3秒发送一次心跳参数可配置
2.每隔10次心跳发送一次blockReport (30s)

Secondary NameNode:
存储: 命名空间镜像文件fsimage+编辑日志editlog

作用: 定期合并fsimage+editlog文件为新的fsimage，推送给NN，称为检查点，checkpoint

等于1小时做一次备份。。

参数: dfs.namenode.checkpoint.period: 3600 秒

实验: NN挂了，SNN去恢复(企业不用)
http://hmilyzhangl.iteye.com/blog/1407214

企业: HDFS HA
YARN HA

青云服务器

20171216作业:
1.rundeck部署及demo
2.Yarn部署
3.Mapreduce Job和查看日志

qq_30130043

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop(1)

HDFS详解:1.三个进程NameNode (NN): 名称节点 --》主节点，client第一个操作的对象DataNode (DN): 数据节点 --》存储数据的Secondary NameNode(SNN): 第二名称节点 2.block(数据块)大小: 64M 以前的版本都是64 128M 新版本默认128，可以自己控制参数参数: dfs.bl...
复制链接

扫一扫