HDFS分布式存储

1. Hadoop历史:

1.1创建者: Doug Cutting

1.2名字起源:  Doug Cutting 的孩子的棕黄色大象玩具的名字

1.3三驾马车:
谷歌的三驾马车:  GFS、MapReduce和BigTable
根据谷歌的三驾马车得到了:HDFS、Hadoop、HBase

1.4hadoop生态圈:
HDFS:分布式存储
Yarn:分布式资源管理器
Mapreduce:分布式计算框架
common:公共部分


2.HDFS存储原理:

2.1各个角色及其作用:

NameNode:
1.接受客户端的读写请求

2.管理元数据:
2.1上传文件的权限
2.2上传文件的属主以及属组
2.3上传文件的时间
2.4上传文件的block数以及ID号
2.5每一个Block的位置信息是由DN在集群启动之时汇报的,不会持久化
2.6各个DN的位置信息

3.管理DN

DataNode:
1.接受客户端的读请求
2.存储block块
3.向active NN汇报心跳
4.构建pipeline的管道
5.管理本机上的block元数据

SNN:
SecondryNameNode 负责持久化,拉取NN节点上的edtis+fsimages文件 合并

合并过程:
文件拉取之时,在NN节点上会创建edits_new目的就是为了存储在合并期间对HDFS的操作
1.基于拉来的edits文件的重演,产生元数据
2.将重演产生的元数据合并到fsimages中
3.将合并后f’simages推送给NN
4.将edits.new文件的后缀去掉

合并的触发机制:
1.超过3600S就合并一次
2.edits文件大小超过64M

ZKFC:
1.监控各自的NN,将监控的情况汇报给zk集群
2.接受zk的选举结果,确认一下另外一个NN是否真的挂了,将自己监控的NN提升为active

Journalone:
1.写数据的时候,只需要保证半数以上的即诶但写入成功就可以了
2.最终一致性/弱一致性
3.存储的是edits

备用的NN:
1.监控journalone中数据变化,实时更新自己的内存数据
2.将内存中元数据持久化到fsimages中,然后推送到NN

备份机制:
1.如果是集群外操作们第一个block存储在负载不高的节点上(默认128M dfs.blocksize 严格按照字节切割,如果存储的是中文,会出现乱码问题)
2.如果集群内操作,在本机
第二个block在其他机架随机一台服务器上
第三个block在与第二个block同机架的其他节点上

HDFS的读写流程:
读流程:
1.client访问NameNode,查询元数据信息,获得这个文件的数据块位置列表,返回输入流对象。
2.就近挑选一台datanode服务器,请求建立输入流 。
3.DataNode向输入流中中写数据,以packet为单位来校验。
4.关闭输入流
写流程:
1.client计算block的数量,切割大文件成一个个block
2.用户端client向NameNode汇报上传文件的权限、数据块block数和上传时间,这些内容在此时被加载到NameNode的内存中。
3.请求一个id号和请求存放的block位置
4.NameNode将当前负载不高的DataNode的地址发送给client
5.将block切割成一个个packet(64K),然后源源不断地往Pipeline管道(多个备份和一份数据)中传送,实现并行存储。
6.DataNode存储完一个块后向NameNode汇报当前的存储情况(block的位置),此时此信息被加载到NameNode内存中。

搭建集群的三种模式:
1.伪分布式,测试环境使用
2.完全分布式: hdfs-site.xml、core-site.xml、 slaves从节点hostname
3.高可用的完全分布式:
3.1 hdfs-site.xml、core-site.xml、 slaves从节点hostname、
3.2格式化、
3.3将本机的NN启动、
3.4去备用的NN节点,同步元数据、
3.5格式化ZKFC(先启动zookeeper)、
3.6关闭所有节点、
3.7start-dfs.sh:
3.7.1安全模式1、NN会将fsimage与edits合并 2、检查各个及诶点上的block块以及副本是否符合要求,若不符合要求,指挥存储数据丢失的DN做备份 3、检查各个DN的健康状况
3.7.2正常对外提供存储服务

HDFS的优缺点:
1.优点:
1.1副本机制,所以数据更安全
1.2因为是分布式存储,所以适合批处理
1.3高可用性
1.4元数据持久化
1.5禁掉一些功能,使集群更加完美(修改功能,文件一旦上传,就不能修改block的大小)
2.缺点:
1.无法毫秒级的读写数据:读写复杂需要找nn请求,形成管道,文件切割block packet
2.不适合存储大量的小文件:容易造成元数据过多,NN内存溢出,解决方法:1.将小文件合并成打文件、2.联邦机制
3.不能并发写入,但是可以并发的读

JAVAAPI:
准备环境:
1.本机配置HADOOP_HOME
2.替换bin目录
3.修改用户名
4.导入JAR
5.安装插件,方便在ecplise中操作集群

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值