hadoop篇
流一恩典
这个作者很懒,什么都没留下…
展开
-
HA/HDFS重要参数实操
前面有篇博文已经介绍了HA得原理,这篇主要来介绍HA的实操,HA原理:https://blog.csdn.net/czz1141979570/article/details/104856251NN切换:切换前的正常状态为:hadoop101:active hadoop102:standby现在使用命令kill -9进行人工干预:test成功,再...原创 2020-03-19 20:46:29 · 472 阅读 · 0 评论 -
生产环境调优YARN Container参数
ContainerContainer是nodemanager虚拟出来的容器,用来运行task任务的,调优维度是memory+vcore如何优化Container参数??假设128G,16个物理core的服务器装完Centos,消耗内存1G 系统预留15%-20%内存(大概26G,其中包含Centos系统占用的1G内存),用来防止全部使用导致系统夯住和oom机制,或者给未来部署组件预...原创 2020-03-08 12:09:53 · 3820 阅读 · 0 评论 -
YARN HA解析
RM:a.启动时会向 ZK的 hadoop-ha目录写一个lock文件,写成功标识active,否则standby rm会一直监控lock文件是否存在,如果不存在就尝试去创建,争取为active rm.b.会接收client的任务的请求,接收和监控nm的资源汇报,负责资源的分配调度,启动和监控applicationmaster .NM:节点上资源的管理,启动容器contai...原创 2020-03-14 13:16:39 · 797 阅读 · 1 评论 -
HDFS HA 架构解析
1、HA产生背景 在企业中,大多数公司都是采用cdh来部署集群,对于hadoop集群都是采用的完全分布式方式。在hadoop集群中肯定会有NN(Name Node)节点和SNN(Secondary Name Node)节点,而真正提供集群服务的则是NN节点,SNN节点会将NN的fsimage和editlog拷贝,然后合并成fsimage.ckpt。而且要说明的是:正常情况下,...原创 2020-03-14 12:44:07 · 807 阅读 · 0 评论 -
HDFS 文件读写流程剖析
Write:$ hadoop fs -put czz.log /wc_in/1、Client调用FileSystem.create(filePath)方法,与NN进行RPC通信,check是否存在及是否有权限创建;假如不ok,就返回错误信息,假如ok,就创建一个新文件,不关联任何的block块,返回一个FSDataOutputStream对象2、Client调用FSDataOut...原创 2020-03-06 14:13:25 · 282 阅读 · 0 评论 -
Hadoop-HDFS组件中的本地存储目录(NN/DN/SNN)结构剖析
HDFS metadata以树状结构存储整个HDFS上的文件和目录,以及相应的权限、配额和副本因子(replication factor)等。本文基于hadoop2.6-cdh5.16.2版本介绍HDFS Namenode本地目录的存储结构和Datanode数据块存储目录结构以及SecondaryName数据存储目录结构。官网架构图:一、NameNode:主> 存储:...原创 2020-03-08 22:06:52 · 1212 阅读 · 0 评论 -
大数据运维面试题整理
HDFS总结:1、HDFS是如何解决大规模数据的存储和管理的2、HDFS的架构原理和各核心组件的作用及关系3、HDFS文件系统数据的读写流程4、HDFS的HA的架构原理及核心5、HDFS的Federation机制6、HDSF的HA和Federation的区别...原创 2019-11-30 15:09:26 · 4942 阅读 · 0 评论 -
Hadoop入门知识
其实Hadoop诞生至今已经十多年了,网络上也充斥着关于Hadoop相关知识的的海量资源。但是,有时还是会使刚刚接触大数据领域的童鞋分不清hadoop、hdfs、MapReduce和Yarn等等技术词汇。 Hadoop Hadoop是ASF(Apache软件基金会)开源的,根据Google开源的三篇大数据论文设计的,一个能够允许大量数据在计算机集群中,通...原创 2019-07-05 22:31:14 · 393 阅读 · 0 评论 -
深入理解Hadoop HDFS
1. 介绍在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中,引入网络,就不可避免地引入了所有网络编程的复杂性,例如挑战之一是如果保证在节点不可用的时候数据不丢失。传统的网络文件系统(NFS)虽然也称为分布式文件系统,但是其存在一些限制。由于NFS中,文件是存储在单机上,因此无法提供可靠性保证,当很多客户端同时...原创 2019-07-06 15:46:38 · 485 阅读 · 0 评论 -
hadoop balancer简单介绍及balancer平衡速度的优化
hadoop balance官网介绍: HDFS data might not always be be placed uniformly across the DataNode. One common reason is addition of new DataNodes to an existing cluster. While placing new blocks (data for...原创 2019-07-16 11:34:07 · 1891 阅读 · 0 评论 -
hadoop fs常用到的命令整理
一、hdfs基本操作hadoop fs与hdfs dfs等价1.如何查看hdfs子命令的帮助信息,如lshdfsdfs -help rmdir2.查看hdfs文件系统中已经存在的文件hdfsdfs -ls /hadoop fs -ls /3.在hdfs文件系统中创建文件hdfs dfs -touch /czz.txt4.从本地路径上传文件到hd...原创 2019-08-30 17:31:05 · 10227 阅读 · 2 评论 -
百PB级Hadoop集群存储空间治理方案
现在这个世道,随便什么公司什么人都张嘴闭嘴大数据,连做个几十人的问卷都敢叫大数据调查分析。真是无知者无畏。但也真有不少公司是真的有足够大的数据量的,也确实是在用心做大数据。这些公司通常规模不小,但盈利不一定理想。就算能稳定盈利,也一定有不小的成本压力。因为,大数据如果真的够大,是真的很费钱。以我所在的公司为例,每年的服务器采购成本就已经好几千万,眼看奔着8位数去了。因此我们有很强的节省...转载 2019-07-27 12:11:31 · 1035 阅读 · 0 评论 -
hadoop 3.0新特性简单介绍
过去十年,Apache Hadoop从无到有,从理论概念演变到如今支撑起若干的生产集群。接下来的十年,Hadoop将继续壮大,并发展支撑新一轮的更大规模、高效和稳定的集群。 本文将向大家全面介绍即将到来的Apache Hadoop 3.0新版本——从版本发布状态、背后的故事,到如HDFS erasure coding、YARN federation、NN k-safety等全新的...原创 2019-07-27 12:55:49 · 9702 阅读 · 0 评论 -
Hadoop 3.x版本增添特性--纠删码介绍
在hadoop 3.0版本中增添了一些新的特性,比如NameNode联邦,纠删码,yarn时间线服务等。纠删码可以将HDFS的存储开销降低约50%,同时与三分本策略一样,还可以保证数据的可用性。更准确的说是纠删码是一种比副本存储更节省存储空间的数据持久化存储方法。比如Reed-Solomon(10,4)标准编码技术只需要1.4倍的空间开销,而标准的HDFS副本技术则需要3倍的空间开销。由于...原创 2019-07-23 15:35:37 · 1162 阅读 · 0 评论 -
如何使用Apache Hadoop中的新HDFS数据节点内磁盘平衡器
> HDFS现在包括(在CDH 5.8.2及更高版本中提供)一种用于跨节点移动数据的综合存储容量管理方法。 在hdfs中,datanode将数据块分散到本地文件系统目录中,可以使用hdfs-site.xml中的dfs.datanode.data.dir指定该目录。在典型的安装中,每个目录(在HDFS术语中称为卷)位于不同的设备上(例如,在单独的HDD和SSD上)。在将新块写入HDFS...原创 2019-04-09 12:30:28 · 909 阅读 · 0 评论 -
如何在hadoop中处理小文件
一、什么是小文件 小文件一般是指明显小于Hadoop的block size(hadoop 1.x中默认是64M,hadoop 2.x中默认是128M)的文件。Hadoop的block size一般是64MB,128MB或者256MB,现在一般趋向于设置的越来越大。后文要讨论的内容为什么会基于128MB,这也是CDH中的默认值。为了方便后面的讨论,这里假定如果文件大小是小于block s...原创 2019-02-20 21:52:16 · 3136 阅读 · 0 评论 -
关于阿里飞天系统中分布式系统底层各服务的介绍
一、协调服务(女蜗) 女娲(Nuwa)系统为飞天提供高可用的协调服务(CoordinationService),是构建各类分布式应用的核心服务,它的作用是采用类似文件系统的树形命名空间来让分布式进程互相协同工作。例如,当集群变更导致特定的服务被迫改变物理运行位置时,如服务器或者网络故障、配置调整或者扩容时,借助女娲可以使其他程序快速定位到该服务新的接入点,从而保证了整个平台的高可靠性...原创 2019-02-19 16:24:36 · 2486 阅读 · 0 评论 -
hive,hbase:ClockOutOfSyncException
大家在刚开始搭建hive或者hbase服务时,启动相关的节点,会发现刚开始节点时启动的,但是30秒之后,发现进程挂掉,这时候去查看log日志,会发现错误提示: ClockOutOfSyncException 这主要原因是:节点时钟不同步解决方案:1、在所有节点安装ntp su root xcall.sh yum install -y ntp(就是所有相关节点都需要安装ntp服务,在所有节点...原创 2018-06-07 14:01:45 · 275 阅读 · 0 评论 -
关于 Chukwa 数据收集监控系统的介绍
1、什么是Chuwka? Chuwka官方解释: Apache Chukwa是一个用于监控大型分布式系统的开源数据收集系统。Apache Chukwa构建于Hadoop分布式文件系统(HDFS)和Map / Reduce框架之上,并继承了Hadoop的可扩展性和健壮性。Apache Chukwa还包括一个灵活而强大的工具包,用于显示,监控和分析结果,以充分利用收集的数据。 ...原创 2019-01-24 12:44:32 · 2464 阅读 · 1 评论 -
CDH简单介绍及体系架构
1、官网介绍: CDH是Cloudera的100%开源平台发行版,包括Apache Hadoop,专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成,Cloudera创建了一个功能先进的系统,可帮助您执行端到端的大数据工作流程。 简单来说:CDH 是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件)...原创 2019-01-26 14:32:08 · 67729 阅读 · 1 评论 -
hadoop节点添加与删除操作
如何添加节点?大概配置思路:1、在新节点中进行操作系统的配置,包括主机名配置,防火墙,网络,免密登陆和安装JDK等2、在所有的节点的/etc/hosts文件中增加新节点3、把namenode的有关配置文件复制到该节点4、修改master节点的slaves文件,增加该节点5、单独启动该节点上的datanode和NodeManager6、运行start-balancer.s...原创 2019-01-31 21:35:26 · 1548 阅读 · 0 评论 -
hadoop ha原理和配置介绍及前置知识介绍
一、Hadoop 1.x与2.x的区别 在介绍HA之前,首先需要对hadoop的系统架构进行简单的理解,这对于理解HA的高可用是非常重要的。> hadoop 1.x 在此版本中,只有一个namenode,所有的元数据都是只由这一个namenode负责管理,所以存在非常严重的单点故障问题,并且所有的元数据都只有一个namenode进行管理,这势必会对namenode的内存...转载 2019-02-01 10:39:58 · 1145 阅读 · 0 评论 -
史上最全cdh安装详细教程
此篇文章主要介绍了CDH在centos 6.x下的安装,在centos 7 版本中的安装以后会推出.这篇文档将着重介绍Cloudera管理器域CDH的安装,并基于以下假设:>>操作系统版本: centos 6.8>>MySQL数据库版本: 5.6.24>>CM版本: CM 5.12.1>>CDH版本: CDH 5.12.1&...原创 2019-01-27 21:17:25 · 37309 阅读 · 7 评论 -
hadoop ha的实现方式原理介绍
在hadoop 1.x版本中,是没有ha的实现方式的,它只有可以看做是冷备份的Secondary NameNode来起到冷备份的作用的,当NameNode挂掉的时候,我们需要手工启动Secondary NameNode。 那么为什么Secondary NameNode能够这样做,是因为SNN能够帮助NN做一些检查点的工作,会同步编辑日志和镜像文件,所以可以起到冷备的作用。在1...原创 2019-02-01 15:48:49 · 3112 阅读 · 0 评论 -
hadoop Federation联邦机制介绍
前面的博客介绍了HDFS HA的实现方式,HA主要解决了"单点故障"的问题,但是在系统扩展性、整体性能和隔离性方面仍然存在问题。(1) 系统扩展性方面,元数据存储在NN内存中,会受到NN内存上限的制约。(2) 整体性能方面,吞吐量受单个NN的影响。(3) 隔离性方面,一个程序可能会影响其他运行的程序,如一个程序消耗过多资源导致其他程序无法顺利运行。HDFS HA本质上还是...原创 2019-02-02 11:14:08 · 1008 阅读 · 0 评论 -
hadoop--快照管理介绍
一、什么是快照 HDFS快照是文件系统的只读时间点副本。可以在文件系统的子树或整个文件系统上拍摄快照。快照的一些常见用例是数据备份,防止用户错误和灾难恢复。二、使用快照的优势官网解释:快照创建是即时的:成本是O(1),不包括inode查找时间。 仅当相对于快照进行修改时才使用附加内存:内存使用量为O(M),其中M是已修改文件/目录的数量。 不复制datanode...原创 2019-02-02 14:47:40 · 1414 阅读 · 0 评论 -
镜像文件(fsimage)和编辑日志(Edits)介绍
一、查看日志镜像文件内容1)镜像文件的作用 通过查看上面的xml文件,可以知道镜像文件实际是存放的目录结构、文件属性等相关信息。另外也可以看到MD5校验文件,这个文件主要是用来判断镜像文件是否发生修改。fsimage文件是NameNode中关于元数据的镜像,一般称为检查点,它是在NameNode启动时对整个文件系统的快照。 fsimage文件是hadoop文件系统元数据的一个...原创 2019-02-03 13:25:43 · 9964 阅读 · 1 评论 -
hdfs-安全模式的介绍
官网介绍: 在启动期间,NameNode从fsimage和edits日志文件加载文件系统状态。然后,它等待DataNodes报告其块,以便尽管群集中已存在足够的副本,但它不会过早地开始复制块。在此期间,NameNode保持在Safemode中。NameNode的安全模式本质上是HDFS集群的只读模式,它不允许对文件系统或块进行任何修改。通常,在DataNode报告大多数文件系统...原创 2019-02-03 14:13:46 · 762 阅读 · 0 评论 -
在CDH集群中启用HDFS的HA
在HDFS集群中NameNode存在单点故障(SPOF),对于只有一个NameNode的集群,如果NameNode机器出现意外,将导致整个集群无法使用。为了解决NameNode单点故障的问题,Hadoop给出了HDFS的高可用HA方案,HDFS集群由两个NameNode组成,一个处于Active状态,另一个处于Standby状态。 Active NameNode可对外提供服务...原创 2019-02-09 13:52:40 · 2245 阅读 · 0 评论 -
在CDH集群中禁用HDFS的HA
本篇文章主要讲述如何使用Cloudera Manager禁用HDFS HA。关于如何开启HA,请参考:https://blog.csdn.net/czz1141979570/article/details/86805598 1.禁用HDFS HA1.使用管理员用户登录Cloudera Manager的Web管理界面,进入HDFS服务2.点击“禁用High Avaia...原创 2019-02-09 14:07:51 · 1011 阅读 · 0 评论 -
hadoop常用四大模块及五大进程节点介绍
1.1hadoop常用四大模块文件:1.1.1core-site.xml(工具模块)包括Hadoop常用的工具类,由原来的Hadoopcore部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的API。...原创 2018-05-19 12:56:23 · 11419 阅读 · 2 评论