HDFS
文章平均质量分 53
大数据面壁者
大数据相关知识分享,框架底层原理机制,生产学习中遇到的相关问题分享,共同学习,共同进步。
展开
-
HDFS块丢失集群一直处于安全模式解决办法
HDFS块丢失集群一直处于安全模式解决办法今天在集群运行的时候突然断电了,服务器重启后,发现提交yarn任务一直报hdfs处于安全模式的错,然后查看hdfs状态,果真丢失两个数据块,导致块数量达不到99.9%。解决方法首先退出hdfs namenode safe mode hadoop dfsadmin -safemode leave查看集群块状态 hadoop fsck /将丢失的块全部删除(必须退出安全模式才能执行) hdfs fsck / -delete原创 2021-03-09 22:34:09 · 841 阅读 · 0 评论 -
FileInputFormat切片源码解析
FileInputFormat切片源码解析一、FileInputFormat切片机制1.简单按照文件的内容长度进行切片2.切片大小,默认等于Block大小3.切片时不考虑数据集体性,而是针对每一个文件单独切片二、切片过程三、FileInputFormat切片大小配置参数四、切片源码//1、getSplits()方法源码解析:long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job)); //切片最原创 2020-11-19 11:22:58 · 659 阅读 · 0 评论 -
HDFS物理块存储大小
HDFS物理块存储大小一、HDFS数据块数据块:Block是HDFS物理上把数据分成一块一块。数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。hadoop数据切片大小默认与hdfs块大小相同为128M,避免MR程序读取数据时,出现跨节点读取。关于如何确定的128M请详见上一篇文章:https://blog.csdn.net/weixin_42796403/article/details/109753044二、实际存储HDFS对文件存储时时按照128M切原创 2020-11-18 13:03:53 · 2542 阅读 · 0 评论 -
集群退役旧数据节点
集群退役旧数据节点一、白名单退役添加到白名单的主机节点,都允许访问NameNode,不在白名单的主机节点,都会被退出。配置白名单的具体步骤如下:1)在NameNode的/opt/module/hadoop-3.1.3/etc/hadoop目录下创建dfs.hosts文件[hadoop@hadoop102 hadoop]$ pwd/opt/module/hadoop-3.1.3/etc/hadoop[hadoop@hadoop102 hadoop]$ touch dfs.hosts[hadoo原创 2020-11-16 23:28:07 · 259 阅读 · 0 评论 -
NameNode和SecondaryNameNode工作机制
NameNode和SecondaryNameNode工作机制一、Namenode工作原理1)第一阶段:NameNode启动(1)第一次启动NameNode格式化后,创建Fsimage和Edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。(2)客户端对元数据进行增删改的请求。(3)NameNode记录操作日志,更新滚动日志。(4)NameNode在内存中对元数据进行增删改。2)第二阶段:Secondary NameNode工作(1)Secondary NameNode询问原创 2020-11-16 23:04:08 · 324 阅读 · 1 评论 -
HDFS读写数据流程
HDFS读写数据流程一、HDFS写数据流程(1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。(2)NameNode返回是否可以上传。(3)客户端请求第一个 Block上传到哪几个DataNode服务器上。(4)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。(5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,原创 2020-11-15 19:59:33 · 272 阅读 · 0 评论 -
HDFS文件块大小设置原理
HDFS文件块大小设置原理一、HDFS文件块大小HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小在Hadoop2.x和Hadoop3.x版本中是128M,老版本Hadoop1.x中是64M。二、HDFS文件块大小设置原理HDFS文件块大小设置主要取决于磁盘传输速率,目前通过Namenode对HDFS元数据进行寻址的时间约为10ms,即查找到目标block的时间为10ms。寻址时间为传输时间的1%时,则为最佳状态因此,原创 2020-11-15 19:49:08 · 1960 阅读 · 0 评论 -
Hadoop2.x与Hadoop3.x副本选择机制
Hadoop2.x与Hadoop3.x副本节点选择机制Hadoop3的第一个稳定版已经于2017年12月发布,生产环境中已逐步取代Hadoop2,本篇文章主要介绍Hadoop3在副本节点选择机制上的改进。一、Hadoop3.x的副本节点选择机制第一个副本在Client所处的节点上。如果客户端在集群外,随机选一个。第二个副本在另一个机架的随机一个节点。第三个副本在第二个副本所在机架的随机节点。二、Hadoop2.x的副本节点选择机制第一个副本在Client所处的节点上。如果客户端在集群原创 2021-01-06 08:49:53 · 1122 阅读 · 1 评论