分布式文件系统HDFS

最新推荐文章于 2023-03-16 20:32:42 发布

51_big_data

最新推荐文章于 2023-03-16 20:32:42 发布

阅读量260

点赞数

分类专栏： Hadoop 文章标签： Hadoop

本文链接：https://blog.csdn.net/qq_20174285/article/details/86373819

版权

Hadoop-HDFS
存储模型：字节
文件线性切割成块（Block）:偏移量 offset （byte）
Block分散存储在集群节点中
单一文件Block大小一致，文件与文件可以不一致
Block可以设置副本数，副本分散在不同节点中
副本数不要超过节点数量
文件上传可以设置Block大小和副本数
已上传的文件Block副本数可以调整，大小不变
只支持一次写入多次读取，同一时刻只有一个写入者
可以append追加数据
架构模型：
文件元数据MetaData，文件数据
元数据
数据本身
（主）NameNode节点保存文件元数据：单节点 posix
（从）DataNode节点保存文件Block数据：多节点
DataNode与NameNode保持心跳，提交Block列表
HdfsClient与NameNode交互元数据信息
HdfsClient与DataNode交互文件Block数据
HDFS架构：
在这里插入图片描述 HDFS设计思想：

NameNode（NN）
基于内存存储：不会和磁盘发生交换
只存在内存中
持久化
NameNode主要功能：
接受客户端的读写服务
收集DataNode汇报的Block列表信息
NameNode保存metadata信息包括
文件owership和permissions
文件大小，时间
（Block列表：Block偏移量），位置信息
Block每副本位置（由DataNode上报）
NameNode持久化
NameNode的metadate信息在启动后会加载到内存
metadata存储到磁盘文件名为”fsimage”
Block的位置信息不会保存到fsimage
edits记录对metadata的操作日志。。。redis
DataNode（DN）
本地磁盘目录存储数据（Block），文件形式
同时存储Block的元数据信息文件
启动DN时会向NN汇报block信息
通过向NN发送心跳保持与其联系（3秒一次），如果NN 10分钟没有收到DN的心跳，则认为其已经lost，并copy其上的block到其它DN
HDFS优点：
高容错性
数据自动保存多个副本
副本丢失后，自动恢复
适合批处理
移动计算而非数据
数据位置暴露给计算框架（Block偏移量）
适合大数据处理
GB 、TB 、甚至PB 级数据
百万规模以上的文件数量
10K+ 节点
可构建在廉价机器上
通过多副本提高可靠性
提供了容错和恢复机制
HDFS缺点：
低延迟数据访问
比如毫秒级
低延迟与高吞吐率
小文件存取
占用NameNode 大量内存
寻道时间超过读取时间
并发写入、文件随机修改
一个文件只能有一个写者
仅支持append
SecondaryNameNode（SNN）
它不是NN的备份（但可以做备份），它的主要工作是帮助NN合并edits log，减少NN启动时间。
SNN执行合并时机
根据配置文件设置的时间间隔fs.checkpoint.period 默认3600秒
根据配置文件设置edits log大小 fs.checkpoint.size 规定edits文件的最大值默认是64MB
SNN合并流程
在这里插入图片描述 Block的副本放置策略
第一个副本：放置在上传文件的DN；如果是集群外提交，则随机挑选一台磁盘不太满，CPU不太忙的节点。
第二个副本：放置在于第一个副本不同的机架的节点上。
第三个副本：与第二个副本相同机架的节点。
更多副本：随机节点
在这里插入图片描述 HDFS写流程

Client：
切分文件Block
按Block线性和NN获取DN列表（副本数）
验证DN列表后以更小的单位流式传输数据
各节点，两两通信确定可用
Block传输结束后：
DN向NN汇报Block信息
DN向Client汇报完成
Client向NN汇报完成
获取下一个Block存放的DN列表。。。。。。
最终Client汇报完成
NN会在写流程更新文件状态
HDFS读流程
在这里插入图片描述 Client：
和NN获取一部分Block副本位置列表
线性和DN获取Block，最终合并为一个文件
在Block副本列表中按距离择优选取
HDFS文件权限 POSIX
与Linux文件权限类似
r: read; w:write; x:execute
权限x对于文件忽略，对于文件夹表示是否允许访问其内容
如果Linux系统用户zhangsan使用hadoop命令创建一个文件，那么这个文件在HDFS中owner就是zhangsan。
HDFS的权限目的：阻止好人错错事，而不是阻止坏人做坏事。HDFS相信，你告诉我你是谁，我就认为你是谁。
安全模式
namenode启动的时候，首先将映像文件(fsimage)载入内存，并执行编辑日志(edits)中的各项操作。
一旦在内存中成功建立文件系统元数据的映射，则创建一个新的fsimage文件(这个操作不需要SecondaryNameNode)和一个空的编辑日志。
此刻namenode运行在安全模式。即namenode的文件系统对于客服端来说是只读的。(显示目录，显示文件内容等。写、删除、重命名都会失败)。
在此阶段Namenode收集各个datanode的报告，当数据块达到最小副本数以上时，会被认为是“安全”的，在一定比例（可设置）的数据块被确定为“安全”后，再过若干时间，安全模式结束
当检测到副本数不足的数据块时，该块会被复制直到达到最小副本数，系统中数据块的位置并不是由namenode维护的，而是以块列表形式存储在datanode中。
集群
角色==进程
namenode
数据元数据
内存存储，不会有磁盘交换
持久化（fsimage，eidts log）
不会持久化block的位置信息
block：偏移量，因为block不可以调整大小，hdfs，不支持修改文件
偏移量不会改变
datanode
block块
磁盘
面向文件，大小一样，不能调整
副本数，调整，（备份，高可用，容错/可以调整很多个，为了计算向数据移动）
SN
NN&DN
心跳机制
DN向NN汇报block信息
安全模式
client
一,操作系统环境
依赖软件ssh,jdk
环境的配置
java_home
免密钥
时间同步
hosts,hostname
二,hadoop部署
/opt/sxt/
配置文件修改
java_home
角色在哪里启动
Client：
写
线性上传block
先和NN通信，元数据，获取第一个block的节点信息（3副本，选择机制）
和DN通信：pipeline：C和1stDN有socket，1stDN和2edDN有socket。。。。
小片传输：4K，C给1stDN，1stDN同时本机缓存，瞬间放入下游socket中
当block传输完毕：block自身的网络I/O时间，时间线重叠的艺术
DN会向NN汇报自己新增的block
C向NN汇报blockX传输完成给我下一个block节点信息
全部传输完成，NN更新元数据状态可用
读
线性读取block，不会有并发，只有一个网卡
距离：择优选取同机架，同节点
NN每次只给一部分block信息
1，jdk安装，配置环境变量
vi /etc/profile
2，ssh免密钥（本机）
ssh-keygen -t dsa -P ‘’ -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
3，上传hadoop.tar.gz到服务器
解压，mv hadoop-2.6.5 /opt/sxt
vi /etc/profile
export JAVA_HOME=/usr/java/jdk1.7.0_67
export HADOOP_PREFIX=/opt/sxt/hadoop-2.6.5
export PATH= $P A T H :$ JAVA_HOME/bin: $HADOOP_PREFIX/bin:$ HADOOP_PREFIX/sbin
4，/opt/hadoop-2.6.5/etc/hadoop
*-env.sh
JAVA_HOME=/usr/java/jdk1.7.0_67
core-site.xml

fs.defaultFS
hdfs://node01:9000

hadoop.tmp.dir
/var/sxt/hadoop/local

hdfs-site.xml

dfs.replication
1

dfs.namenode.secondary.http-address
node01:50090

slaves
node01
hdfs namenode -format
start-dfs.sh
jps
28341 SecondaryNameNode
28102 NameNode
28207 DataNode
28480 Jps
hdfs dfs -mkdir /user
hdfs dfs -ls /user
hdfs dfs -mkdir /user/root
hdfs dfs -D dfs.blocksize=1048576 -put hadoop-2.6.5.tar.gz

http://192.168.9.11:50070
for i in seq 100000;do echo “hello sxt $i” >> test.txt;done
cat ~/node01.pub >> ~/.ssh/authorized_keys
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
在这里插入图片描述

1，每台服务器要：
安装jdk
配置环境变量
免密钥登陆
控制节点scp自己的id_dsa.pub分发到其他节点
cat ~/node1.pub >> ~/.ssh/authorized_keys
mkdir /opt/sxt
/etc/hosts
2，取一个节点：
配置Hadoop的配置文件
core-site.xml

fs.defaultFS
hdfs://node01:9000

hadoop.tmp.dir
/var/sxt/hadoop/full

hdfs-site.xml

dfs.replication
3

dfs.namenode.secondary.http-address
node02:50090

slaves
node02
node03
node04

3，分发部署包到其他节点
cd /opt/sxt
scp -r hadoop-2.6.5 node02:pwd
scp -r hadoop-2.6.5 node03:pwd
scp -r hadoop-2.6.5 node04:pwd
4，确认之前的hadoop进程是否停到了
jps
5，hdfs namenode -format (node01)
6，start-dfs.sh
7，每个节点jps验证，node01:50070
1，解压部署，添加环境变量
2，将tools目录下的bin目录覆盖部署目录
3，备份eclipse，将hadoop的插件放入eclipse的plugins下
4，启动eclipse，添加map/reduce视图
5，创建hdfs连接：
6，整理部署目录内的jar包：
C:\var\sean\hadoop-2.6.5\share\hadoop
hdfs,common,mapreduce,tools,yarn
目录内的jar包全部拷贝一份出来
7，eclipse创建用户库导入刚才的jar包：
8，新建一个java项目
导入hadoop的jar包
创建一个conf目录
从集群下载core-site.xml hdfs-site.xml
在这里插入图片描述 hdfs 安装：
平台
GNULinux
模式：
local
pseudo
full
依赖：
java
2次配置（系统环境，脚本再次制定）
ssh
免密钥
下载hadoop
配置：配置文件
1，jdk安装
/etc/profile
~/.bashrc
2，ssh:避免输入密码
ssh-keygen -t dsa -P ‘’ -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
scp ~/.ssh/id_dsa.pub root@node02:pwd/node01.pub
cat node01.pub >> ~/.ssh/authorized_keys
3&#

最低0.47元/天解锁文章

51_big_data

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分布式文件系统HDFS

Hadoop-HDFS存储模型：字节文件线性切割成块（Block）:偏移量 offset （byte）Block分散存储在集群节点中单一文件Block大小一致，文件与文件可以不一致Block可以设置副本数，副本分散在不同节点中副本数不要超过节点数量文件上传可以设置Block大小和副本数已上传的文件Block副本数可以调整，大小不变只支持一次写入多次读取，同一时刻只有一个写入者...
复制链接

扫一扫

专栏目录