![](https://img-blog.csdnimg.cn/20190918140037908.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
HDFS
HDFS
小刘同学-很乖
这个作者很懒,什么都没留下…
展开
-
hadoop之HDFS HA高可用---HDFS Federation架构设计
NameNode架构的局限性Namespace(命名空间)的限制由于NameNode在内存中存储所有的元数据(metadata),因此单个NameNode所能存储的对象(文件+块)数目受到NameNode所在JVM的heap size的限制。50G的heap能够存储20亿(200million)个对象,这20亿个对象支持4000个DataNode,12PB的存储(假设文件平均大小为40MB)...原创 2020-05-08 09:03:49 · 225 阅读 · 0 评论 -
hadoop之HDFS HA高可用---YARN-HA配置
YARN-HA工作机制官方文档:http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.htmlYARN-HA工作机制配置YARN-HA集群环境准备修改IP修改主机名及主机名和IP地址的映射关闭防火墙ssh免密登录安装JDK,配置环境变量等配置Zookeep...原创 2020-05-07 09:36:42 · 271 阅读 · 0 评论 -
hadoop之HDFS HA高可用---HDFS-HA集群配置
配置HDFS-HA集群官方地址:http://hadoop.apache.org/在opt目录下创建一个ha文件夹mkdir ha将/opt/app/下的 hadoop-2.7.2拷贝到/opt/ha目录下cp -r hadoop-2.7.2/ /opt/ha/配置hadoop-env.shexport JAVA_HOME=/opt/module/jdk1.8.0_1...原创 2020-05-07 09:35:59 · 671 阅读 · 0 评论 -
hadoop之HDFS HA高可用---HDFS-HA集群配置前期准备
环境准备修改IP修改主机名及主机名和IP地址的映射关闭防火墙ssh免密登录安装JDK,配置环境变量等规划集群hadoop102hadoop103hadoop104NameNodeNameNodeJournalNodeJournalNodeJournalNodeDataNodeDataNodeDataNodeZKZKZK...原创 2020-05-06 08:36:38 · 234 阅读 · 0 评论 -
hadoop之HDFS HA高可用---HA工作机制
HA概述所谓HA(High Available),即高可用(7*24小时不中断服务)。实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。NameNode主要在以下两个方面影响HDFS集群NameNode机器发生意外,如宕机,集群将无法使用,直到管...原创 2020-05-06 08:36:20 · 188 阅读 · 0 评论 -
hadoop之HDFS 2.X新特性
集群间数据拷贝scp实现两个远程主机之间的文件复制scp -r hello.txt [root@hadoop103:/user/liujh/hello.txt](mailto:root@hadoop103:/user/liujh/hello.txt) // 推 push scp -r [root@hadoop103:/user/liujh/hello.txt hello.txt](mai...原创 2020-04-09 09:04:10 · 176 阅读 · 0 评论 -
hadoop之DataNode---掉线时限参数设置,Datanode多目录配置
掉线时限参数设置DataNode进程死亡或者网络故障造成DataNode无法与NameNode通信NameNode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长HDFS默认的超时时长为10分钟+30秒如果定义超时时间为TimeOut,则超时时长的计算公式为:TimeOut = 2 * dfs.namenode.heartbeat.recheck-interval ...原创 2020-04-09 09:03:47 · 536 阅读 · 0 评论 -
hadoop之DataNode---退役旧数据节点
添加白名单添加到白名单的主机节点,都允许访问NameNode,不在白名单的主机节点,都会被退出。配置白名单的具体步骤如下:在NameNode的/opt/module/hadoop-2.7.2/etc/hadoop目录下创建dfs.hosts文件[liujh@hadoop102 hadoop]$ pwd/opt/module/hadoop-2.7.2/etc/hadoop[liujh...原创 2020-04-08 09:28:00 · 319 阅读 · 0 评论 -
hadoop之DataNode---服役新数据节点
环境准备在hadoop104主机上再克隆一台hadoop105主机修改IP地址和主机名称删除原来HDFS文件系统留存的文件(/opt/module/hadoop-2.7.2/data和log)source一下配置文件[liujh@hadoop105 hadoop-2.7.2]$ source /etc/profile服役新节点具体步骤直接启动DataNode,即可关联到集群...原创 2020-04-08 09:27:44 · 158 阅读 · 0 评论 -
hadoop之DataNode---DataNode工作机制,数据完整性
DataNode工作机制一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据...原创 2020-04-07 09:18:24 · 417 阅读 · 0 评论 -
hadoop之NameNode和SecondaryNameNode---集群安全模式
概述NameNode启动NameNode启动时,首先将镜像文件(Fsimage)载入内存,并执行编辑日志(Edits)中的各项操作。一旦在内存中成功建立文件系统元数据的映像,则创建一个新的Fsimage文件和一个空的编辑日志。此时,NameNode开始监听DataNode请求。这个过程期间,NameNode一直运行在安全模式,即NameNode的文件系统对于客户端来说是只读的DataNod...原创 2020-04-07 09:18:06 · 176 阅读 · 0 评论 -
hadoop之NameNode和SecondaryNameNode---NameNode详细故障处理
NameNode故障处理NameNode故障后,可以采用如下两种方法恢复数据将SecondaryNameNode中数据拷贝到NameNode存储数据的目录kill -9 NameNode进程删除NameNode存储的数据(/opt/module/hadoop-2.7.2/data/tmp/dfs/name)[liujh@hadoop102 hadoop-2.7.2]$ rm -rf ...原创 2020-04-06 09:21:18 · 467 阅读 · 0 评论 -
hadoop之NameNode和SecondaryNameNode---CheckPoint时间设置
CheckPoint时间设置通常情况下,SecondaryNameNode每隔一小时执行一次hdfs-default.xml<property> <name>dfs.namenode.checkpoint.period</name> <value>3600</value></property>一分钟检...原创 2020-04-06 09:20:50 · 243 阅读 · 0 评论 -
hadoop之NameNode和SecondaryNameNode---Fsimage和Edits解析
Fsimage和Edits解析概念NameNode被格式化之后,将在/opt/module/hadoop-2.7.2/data/tmp/dfs/name/current目录中产生如下文件fsimage_0000000000000000000fsimage_0000000000000000000.md5seen_txidVERSIONFsimage文件:HDFS文件系统元数据的一个永...原创 2020-04-05 09:10:35 · 353 阅读 · 0 评论 -
hadoop之NameNode和SecondaryNameNode---NN和2NN工作机制
思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过...原创 2020-04-05 09:10:10 · 290 阅读 · 0 评论 -
hadoop之HDFS客户端操作---HDFS的详细I/O流操作
HDFS文件上传需求:把本地e盘上的banhua.txt文件上传到HDFS根目录@Testpublic void putFileToHDFS() throws IOException, InterruptedException, URISyntaxException { // 1 获取文件系统 Configuration configuration = new Configuration...原创 2020-04-02 08:59:01 · 222 阅读 · 0 评论 -
hadoop之HDFS的数据流
剖析文件写入[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sTtHmR97-1585208613803)(https://upload-images.jianshu.io/upload_images/3301850-f841f45f333955d6.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]...原创 2020-04-02 08:58:36 · 88 阅读 · 0 评论 -
hadoop之HDFS客户端操作---HDFS的详细API操作
HDFS文件上传(测试参数优先级)编写源代码@Testpublic void testCopyFromLocalFile() throws IOException, InterruptedException, URISyntaxException { // 1 获取文件系统 Configuration configuration = new Configuration()...原创 2020-04-01 08:34:59 · 278 阅读 · 0 评论 -
hadoop之HDFS客户端操作---HDFS客户端环境准备
HDFS客户端环境准备根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径(例如:D:\Develop\hadoop-2.7.2)配置HADOOP_HOME环境变量配置Path环境变量创建一个Maven工程HdfsClientDemo导入相应的依赖坐标+日志添加<dependencies> <dependency>...原创 2020-04-01 08:34:41 · 551 阅读 · 2 评论 -
hadoop之HDFS的详细Shell操作
基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。#命令大全[liujh@hadoop102 hadoop-2.7.2]$ bin/hadoop fs[-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...原创 2020-03-31 08:28:23 · 229 阅读 · 0 评论 -
Hadoop之HDFS详细概述
HDFS产出背景及定义HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定...原创 2020-03-31 08:28:01 · 170 阅读 · 0 评论