Hadoop(1)

HDFS详解:
1.三个进程
NameNode (NN): 名称节点  --》主节点,client第一个操作的对象
DataNode (DN): 数据节点  --》存储数据的
Secondary NameNode(SNN): 第二名称节点 

2.block(数据块)
大小:    
64M        以前的版本都是64    
128M      新版本默认128,可以自己控制参数    参数: dfs.blocksize控制

3.副本数
dfs.replication : 默认3

一个块会变为3个块  

130M =( 128 + 2 ) * 3



hadoop2.x一般公司就3个
hadoop3.0 : 1.5(新特性 纠删码) 1+0.5




4.案例
1个文件130M : 128M 2M 两个块
     实际存储: 130M*3
              多少个块: 6


1桶水130ml, 两个瓶子(128ml规格),第一个装满了128,第二个瓶子只装2ml,实际存储了多少的水?130ml


悬念(面试题):
多出2M,占一个数据块,会有问题?
答案:会维护在NN的内存,会可能oom
   
        比如文件都是小文件,3M、5M ?
合并小文件/设计的时候,尽量让一个文件是120--128M




5.架构设计
NameNode: 文件系统的命名空间    (面试题)
 1.文件名称
 2.文件目录结构
 3.文件的属性(权限 创建时间 副本数)


 4.文件对应哪些数据块--》这些数据块对应哪些DataNode节点上
 不会持久化存储这个映射关系,是通过集群的启动和运行时,datanode定期发送blockReport给NN,

 以此NN在【内存】中动态维护这种映射关系。

            好处:动态,不持久化



          存储:维护文件系统树及整个树内的所有文件和目录,这些信息以两种文件形式永久保存在本地磁盘上
      命名空间镜像文件fsimage+编辑日志editlog


DataNode: 
存储: 数据块+数据块校验和
与NN通信:
1.每隔3秒发送一次心跳  参数可配置
2.每隔10次心跳发送一次blockReport  (30s)




Secondary NameNode:
        存储: 命名空间镜像文件fsimage+编辑日志editlog

作用: 定期合并fsimage+editlog文件为新的fsimage,推送给NN,称为检查点,checkpoint

                等于1小时做一次备份。。

参数: dfs.namenode.checkpoint.period: 3600 秒




实验: NN挂了,SNN去恢复(企业不用)
http://hmilyzhangl.iteye.com/blog/1407214


企业: HDFS HA
      YARN HA


青云服务器






20171216作业:
1.rundeck部署及demo
2.Yarn部署
3.Mapreduce Job和查看日志









































  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值