自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 资源 (4)
  • 收藏
  • 关注

原创 HDFS-HA 集群配置

环境准备修改 IP修改主机名及主机名和 IP 地址的映射关闭防火墙ssh 免密登录安装 JDK,配置环境变量等规划集群配置 Zookeeper 集群1.集群规划在 hadoop102、hadoop103 和 hadoop104 三个节点上部署 Zookeeper。2.解压安装(1)解压 Zookeeper 安装包到/opt/module/目录下[hadoop@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /

2021-03-17 17:24:01 69

原创 HDFS HA 高可用

HA 概述1)所谓 HA(High Available),即高可用(7*24 小时不中断服务)。2)实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA 机制:HDFS 的 HA 和 YARN 的 HA。3)Hadoop2.0 之前,在 HDFS 集群中 NameNode 存在单点故障(SPOF)。4)NameNode 主要在以下两个方面影响 HDFS 集群NameNode 机器发生意外,如宕机,集群将无法使用,直到管理员重启NameNode 机器需要升级,包括软件、硬件升

2021-03-17 16:20:33 90

原创 快照管理

快照相当于对目录做一个备份。并不会立即复制所有文件,而是记录文件变化。(1)hdfs dfsadmin -allowSnapshot 路径 (功能描述:开启指定目录的快照功能) (2)hdfs dfsadmin -disallowSnapshot 路径 (功能描述:禁用指定目录的快照功能,默认是禁用) (3)hdfs dfs -createSnapshot 路径 (功能描述:对目录创建快照) (4)hdfs dfs -createSnapshot 路径 名称 (功能描述:指定名称创建快照) (5)

2021-03-17 15:41:11 136

原创 小文件存档

1、HDFS存储小文件弊端每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小 文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需要的磁盘容量和数据块的大小无关。例如,一个1MB的文件设置为128MB的块存储,实际使用的是1MB的磁盘空间,而不是128MB。2、解决存储小文件办法之一HDFS存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少NameNode内存使用的同时,允许对文件进行透明的访问。具

2021-03-17 14:41:36 84

原创 集群间数据拷贝

1.scp 实现两个远程主机之间的文件复制scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 pushscp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pullscp -r root@hadoop103:/user/atguigu/hello.txt root@hadoop104:/user/hadoop//是通过本地主机中转实现两个远程主机的文件复制;如果

2021-03-17 14:34:11 145

原创 退役旧数据节点-黑名单退役

在黑名单上面的主机都会被强制退出。1.在 NameNode 的 /opt/module/hadoop-2.7.2/etc/hadoop 目 录下创建dfs.hosts.exclude 文件[hadoop@hadoop102 hadoop]$ pwd/opt/module/hadoop-2.7.2/etc/hadoop[hadoop@hadoop102 hadoop]$ touch dfs.hosts.exclude[hadoop@hadoop102 hadoop]$ vi dfs.hosts.ex

2021-03-17 14:02:24 96

原创 退役旧数据节点-白名单退役

1.添加白名单添加到白名单的主机节点,都允许访问 NameNode,不在白名单的主机节点,都会被退出。配置白名单的具体步骤如下:(1)在 NameNode 的/opt/module/hadoop-2.7.2/etc/hadoop 目录下创建 dfs.hosts 文件[hadoop@hadoop102 hadoop]$ pwd/opt/module/hadoop-2.7.2/etc/hadoop[hadoop@hadoop102 hadoop]$ touch dfs.hosts[hadoop@h

2021-03-17 13:57:04 79

原创 服役新数据节点

0.需求随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。1.环境准备(1)在 hadoop104 主机上再克隆一台 hadoop105 主机(2)修改 IP 地址和主机名称(3)删除原来 HDFS 文件系统留存的文件(/opt/module/hadoop-2.7.2/data 和 log) (4)source 一下配置文件[hadoop@hadoop105 hadoop-2.7.2]$ source /etc/prof

2021-03-17 13:51:18 53

原创 掉线时限参数设置

DataNode掉线时限参数设置1、DataNode进程死亡或者网络故障造成DataNode无法与NameNode通信;2、NameNode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长;3、HDFS默认的超时时长为10分钟+30秒;4、如果定义超时时间为TimeOut,则超时时长的计算公式为:TimeOut = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval而默认的dfs.

2021-03-17 13:43:47 199

原创 NameNode 多目录配置

NameNode 的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性。2.具体配置如下(1)在 hdfs-site.xml 文件中增加如下内容<property> <name>dfs.namenode.name.dir</name><value>file:///${hadoop.tmp.dir}/dfs/name1,file:///${hadoop.tmp.dir}/dfs/name2</value></prop.

2021-03-16 19:39:42 121

原创 集群安全模式

1、NameNode启动NameNode启动时,首先将镜像文件(Fsimage)载入内存,并执行编辑日志(Edits)中的各项操作。一旦在内存中成功建立文件系统元数据的映像,则创建一个新的Fsimage文件和一个空的编辑日志。此 时,NameNode开始监听DataNode请求。这个过程期间,NameNode一直运行在安全模式,即NameNode的文件系统对于客户端来说是只读的。2、DataNode启动系统中的数据块的位置并不是由NameNode维护的,而是以块列表的形式存储在DataNode中。在系

2021-03-16 19:34:31 145

原创 NameNode故障处理

NameNode 故障后,可以采用如下两种方法恢复数据。方法一:将 SecondaryNameNode 中数据拷贝到 NameNode 存储数据的目录;kill -9 NameNode 进程删除 NameNode 存储的数据(/opt/module/hadoop-2.7.2/data/tmp/dfs/name)[hadoop@hadoop102 hadoop-2.7.2]$ rm -rf /opt/module/hadoop-2.7.2/data/tmp/dfs/name/*拷贝 Sec

2021-03-16 17:03:26 109

原创 为什么块的大小不能设置太小,也不能设置太大?

(1)HDFS的块设置太小,会增加寻址时间,程序一直在找块的开始位置;(2)如果块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时,会非常慢。总结:HDFS块的大小设置主要取决于磁盘传输速率。...

2021-03-16 14:34:07 507 1

原创 HDFS组成架构

1)NameNode(nn):就是Master,它是一个主管、管理者。(1)管理HDFS的名称空间;(2)配置副本策略;(3)管理数据块(Block)映射信息;(4)处理客户端读写请求。2)DataNode:就是Slave。NameNode下达命令,DataNode执行实际的操作。(1)存储实际的数据块;(2)执行数据块的读/写操作。...

2021-03-16 14:19:05 50

原创 Wordcount案例简单分析

2021-03-13 23:28:59 156

原创 数据完整性

思考:如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险?同理 DataNode 节点上的数据损坏了,却没有发现,是否也很危险,那么如何解决呢?如下是 DataNode 节点保证数据完整性的方法。1)当 DataNode 读取 Block 的时候,它会计算 CheckSum。2)如果计算后的 CheckSum,与 Block 创建时值不一样,说明 Block 已经损坏。3)Client 读取其他 DataNode 上的 B

2021-03-13 23:27:55 87

原创 DataNode工作机制

1)一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode 启动后向 NameNode 注册,通过后,周期性(1 小时)的向 NameNode 上报所有的块信息。3)心跳是每 3 秒一次,心跳返回结果带有 NameNode 给该 DataNode 的命令如复制块数据到另一台机器,或删除某个数据块。如果超过 10 分钟没有收到某个 DataNode 的心跳,则认为该节点不可用。4)集群运行中.

2021-03-13 23:26:07 61

原创 NameNode工作机制

NameNode 中的元数据是存储在哪里的?首先,我们做个假设,如果存储在 NameNode 节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新 FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦 NameNode 节点断电,就会产生数据丢失。因此,引入 Edits

2021-03-13 23:24:29 66

原创 HDFS的读数据流程

1)客户端通过 Distributed FileSystem 向 NameNode 请求下载文件,NameNode 通过查询元数据,找到文件块所在的 DataNode 地址。2)挑选一台 DataNode(就近原则,然后随机)服务器,请求读取数据。3)DataNode 开始传输数据给客户端(从磁盘里面读取数据输入流,以 Packet 为单位来做校验)。4)客户端以 Packet 为单位接收,先在本地缓存,然后写入目标文件。...

2021-03-13 23:20:52 56

原创 网络拓扑概念

在 HDFS 写数据的过程中,NameNode 会选择距离待上传数据最近距离的 DataNode 接收数据。那么这个最近距离怎么计算呢?节点距离:两个节点到达最近的共同祖先的距离总和。例如,假设有数据中心 d1 机架 r1 中的节点 n1。该节点可以表示为/d1/r1/n1。利用这种标记,这里给出四种距离描述。大家算一算每两个节点之间的距离。...

2021-03-13 23:19:15 105

原创 HDFS的写数据流程

1)客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。2)NameNode 返回是否可以上传。3)客户端请求第一个 Block 上传到哪几个 DataNode 服务器上。4)NameNode 返回 3 个 DataNode 节点,分别为 dn1、dn2、dn3。5)客户端通过 FSDataOutputStream 模块请求 dn1 上传数据,dn1 收到请求会继续调用 dn2,然后 dn2 .

2021-03-13 23:16:09 58

原创 HDFS文件块大小

2021-03-13 23:13:16 247

原创 DataNode和NameNode进程同时只能有一个工作问题分析

1.第一次启动时没有问题;2.第二次启动时,原来的DataNode数据并没有删除掉,它在与新NameNode通信时连接不上。导致集群不能正常启动;3.解决办法:在格式化之前,删除dataNode里面的信息(默认在/tmp,如果配置了该目录,那就去你配置的目录下删除数据);...

2021-03-13 23:10:06 473

原创 项目经验之HDFS存储多目录

1)生产环境服务器存在多磁盘情况2)在hdfs-site.xml文件中配置多目录,注意新挂载磁盘的访问权限问题。HDFS的DataNode节点保存数据的路径由dfs.datanode.data.dir参数决定,其默认值为file://${hadoop.tmp.dir}/dfs/data,若服务器有多个磁盘,必须对该参数进行修改。如服务器磁盘如上图所示,则该参数应修改为如下的值。<property> <name>dfs.datanode.data.dir</name

2021-03-10 15:52:00 165

原创 项目经验之集群数据均衡

1)节点间数据均衡(1)开启数据均衡命令:start-balancer.sh -threshold 5对于参数5,代表的是集群中各个节点的磁盘空间利用率相差不超过5%,可根据实际情况进行调整。(2)停止数据均衡命令:stop-balancer.sh注意:由于HDFS需要启动单独的Rebalance Server来执行Rebalance操作,所以尽量不要在NameNode上执行start-balancer.sh,而是找一台比较空闲的机器。...

2021-03-10 15:48:13 158

原创 start-dfs.sh和start-all.sh的区别

start-dfs.sh 只启动namenode 和datanodestart-yarn.sh 只启动resourcemanager 和nodemanagerstart-all.sh 启动namenode 和datanode和yarn的resourcemanager 和nodemanager

2021-03-10 15:46:02 1483

转载 hadoop集群节点启不来解决方案

查看VERION信息:master 的 namenode 信息:> cd /usr/local/src/hadoop-2.6.1/dfs/name/current> cat VERSION #Tue Aug 18 01:43:38 EDT 2020namespaceID=1008709700clusterID=CID-c3345186-922b-4010-bb38-cdc135bc1afecTime=0storageType=NAME_NODEblockpoolID=BP-26

2021-03-04 16:32:44 2133 1

griffin安装文档

griffin安装文档及问题解决

2021-08-10

数据分析专题.docx

数据分析师日常工作 专题分析步骤 流量分析 路径分析 竞品分析 sql常见问题 临时需求处理

2020-09-17

Hadoop平台常见故障汇总以及操作系统性能调优.docx

该文件为hadoop集群平台常见故障进行总结及处理问题相关的技巧,还有一些操作系统性能方面的调优策略。

2020-08-10

hadoop高可用集群搭建手册.docx

hadoop2.6集群搭建手册,搭建的详细步骤,各种参数配置,配置文件配置,并对搭建的平台进行验证。

2020-04-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除