HDFS
HDFS学习笔记
老菜啦
这个作者很懒,什么都没留下…
展开
-
Hadoop优化
1.MapReduce 跑的慢的原因2.MapReduce优化方法1.数据输入阶段2.Map阶段3.reduce阶段4.I/O传输5.数据倾斜问题及优化方法6.常用的调优参数(1)以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml)配置参数参数说明mapreduce.map.memory.mb一个MapT...原创 2020-03-02 13:16:35 · 150 阅读 · 0 评论 -
HDFS的Shell操作
1.基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。2. 命令大全[hadoop@hadoop102 hadoop-2.7.2]$ bin/hadoop fs[-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <sr...原创 2020-02-27 13:43:49 · 89 阅读 · 0 评论 -
HDFS2.X新特性
1. 集群间拷贝1.scp实现两个远程主机之间的文件复制scp -r hello.txt root@hadoop103:/user/hadoop/hello.txt // 推 pushscp -r root@hadoop103:/user/hadoop/hello.txt hello.txt // 拉 pullscp -r root@hadoop103:/user/hadoop/he...原创 2020-02-27 08:49:29 · 158 阅读 · 0 评论 -
HDFS之DataNode(二)服役和退役节点
3.掉线时限参数设置需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的单位为毫秒,dfs.heartbeat.interval的单位为秒。<property> <name>dfs.namenode.heartbeat.recheck-interval</name> <value&...原创 2020-02-27 08:38:22 · 405 阅读 · 0 评论 -
HDFS之DataNode(一)工作机制和数据完整性
1. DataNode工作机制1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器...原创 2020-02-27 08:23:58 · 240 阅读 · 0 评论 -
集群安全模式
1. 概述2.基本语法集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式。(1)bin/hdfs dfsadmin -safemode get (功能描述:查看安全模式状态)(2)bin/hdfs dfsadmin -safemode enter (功能描述:进入安全模式状态)(3)bin/hdfs dfsadmin -safemode leave (...原创 2020-02-27 08:15:13 · 445 阅读 · 0 评论 -
HDFS NameNode故障处理
NameNode故障后,可以采用如下两种方法恢复数据。方法一:将SecondaryNameNode中数据拷贝到NameNode存储数据的目录kill -9 NameNode进程删除NameNode存储的数据(/opt/module/hadoop-2.7.2/data/tmp/dfs/name)[hadoop@hadoop102 hadoop-2.7.2]$ rm -rf /opt/mo...原创 2020-02-26 18:16:04 · 3939 阅读 · 0 评论 -
HDFS NameNode和Secondary NameNode工作机制
NameNode中的元数据的存储首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新...原创 2020-02-26 18:11:22 · 138 阅读 · 0 评论 -
HDFS数据流之读数据流程
1)客户端通过Distributed FileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。2)挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。3)DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。4)客户端以Packet为单位接收,先在本地缓存,然后写入目标...原创 2020-02-26 15:55:25 · 146 阅读 · 0 评论 -
HDFS的数据流之写数据流程
1. 剖析文件写入1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 Block上传到哪几个DataNode服务器上。4)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。5)客户端通过FSDataOutp...原创 2020-02-26 15:54:28 · 87 阅读 · 0 评论 -
HDFS客户端的基本操作代码
package hdfs;import com.google.gson.internal.$Gson$Preconditions;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.yarn.webapp.hamlet.Hamlet;impo...原创 2020-02-26 14:21:44 · 269 阅读 · 0 评论 -
HDFS客户端环境准备
1.安装配置maven下载maven.zip将maven解压到指定目录配置环境变量新建MAVEN_HOME,在Path中添加%MAVEN_HOME%/binCMD测试是否配置成功配置maven settings.xml文件进入maven根目录\conf中有一个settings.xml文件添加阿里云镜像<mirror> <id>alima...原创 2020-02-26 09:53:32 · 1110 阅读 · 5 评论