Hadoop
黑猴子的家
拥有技术,便拥有自由
B站 Up主专注于技术 https://space.bilibili.com/398602910
展开
-
大数据技术之概论
1、大数据概念大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte = 8 Bit1KB = 1,...原创 2018-09-25 15:34:00 · 779 阅读 · 0 评论 -
黑猴子的家:Hadoop HA模式下Checkpointing过程分析
在HA模式下checkpoint过程由StandBy NameNode来进行,以下简称为SBNN,Active NameNode简称为ANN。 HA模式下的edit log文件会同时写入多个JournalNodes节点的dfs.journalnode.edits.dir路径下,JournalNodes的个数为大于1的奇数,类似于Zookeeper的节点数,当有不超过一半的JournalNode...原创 2018-09-05 17:28:00 · 495 阅读 · 0 评论 -
黑猴子的家:Hadoop Checkpoint机制
fsimage和edit log合并的过程如下图所示image.png其实这个合并过程是一个很耗I/O与CPU的操作,并且在进行合并的过程中肯定也会有其他应用继续访问和修改hdfs文件。所以,这个过程一般不是在单一的NameNode节点上进行从。如果HDFS没有做HA的话,checkpoint由SecondNameNode进程(一般SecondNameNode单独起在另一台...原创 2018-09-05 17:27:00 · 257 阅读 · 0 评论 -
黑猴子的家:Hadoop 中,什么是FSImage和EditsLog
我们知道HDFS是一个分布式文件存储系统,文件分布式存储在多个DataNode节点上。一个文件存储在哪些DataNode节点的哪些位置的元数据信息(metadata)由NameNode节点来处理。随着存储文件的增多,NameNode上存储的信息也会越来越多。那么HDFS是如何及时更新这些metadata的呢? 在HDFS中主要是通过两个组件FSImage和EditsLog来实现metadata...原创 2018-09-05 17:26:00 · 692 阅读 · 0 评论 -
黑猴子的家:Hadoop HA 工作要点
image.png1、通过双NameNode消除单点故障2、元数据管理方式需要改变:(1)内存中各自保存一份元数据;(2)Edits日志只有Active状态的NameNode节点可以做写操作;(3)两个NameNode都可以读取edits;(4)共享的edits放在一个共享存储中管理(qjournal和NFS两个主流实现);3、需要一个状态管理功能模块实现了一个zkfai...原创 2018-09-05 17:15:00 · 135 阅读 · 0 评论 -
黑猴子的家:Hadoop HA - 概念
1)所谓HA(High Availability),即高可用。2)实现高可用最关键的策略,是消除单点故障。HA严格来说,应该分成各个组件的HA机制。HDFS的HAYARN的HA3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。4)NameNode主要在以下两个方面影响HDFS集群。NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启...原创 2018-09-05 17:11:00 · 129 阅读 · 0 评论 -
黑猴子的家:Hadoop 编译源码支持snappy压缩
1、CentOS联网[root@node1 ~]# ping www.baidu.comPING www.a.shifen.com (61.135.169.121) 56(84) bytes of data.64 bytes from 61.135.169.121 (61.135.169.121): icmp_seq=1 ttl=128 time=21.2 ms64 bytes fro...原创 2018-09-05 13:53:00 · 121 阅读 · 0 评论 -
黑猴子的家:Hadoop 完全分布式,集群基础性能测试
1、上传文件到集群小文件[victor@node1 hadoop-2.8.2]$ bin/hdfs dfs -mkdir -p /user/victor/conf[victor@node1 hadoop-2.8.2]$ bin/hdfs dfs -put etc/hadoop/*-site.xml /user/victor/conf大文件[victor@node1 hado...原创 2018-09-05 13:31:00 · 135 阅读 · 0 评论 -
黑猴子的家:Hadoop 启动停止方式
1、各个服务组件逐一启动(1)分别启动hdfs组件 hadoop-daemon.sh start|stop namenode|datanode|secondarynamenode(2)启动yarn yarn-daemon.sh start|stop resourcemanager|nodemanager2、各个模块分开启动(配置ssh是前提)常用(1)整...原创 2018-09-05 13:26:00 · 129 阅读 · 0 评论 -
黑猴子的家:Hadoop 完全分布式部署
1、SSH免密登录$https://www.jianshu.com/p/2e7b920ce3532、集群部署规划"" node1 node2 node3 HDFS NameNode "" SecondaryNameNode "" DataNode DataNode DataNode YARN "" Res...原创 2018-09-05 13:11:00 · 151 阅读 · 0 评论 -
黑猴子的家:Hadoop-2.X HA模式下的FSImage和EditsLog合并过程
集群HDFS启动缓慢的问题,集群为Hadoop-2.5.0版本,做了HDFS的HA。在某次故障后重启HDFS集群,发现启动超慢,积累了100多个EditsLog,整个启动过程持续了近六个小时。为了总结这次的经验教训,补充了一下NameNode启动过程中有关FSImage与EditsLog的相关知识。1、什么是FSImage和EditsLoghttps://www.jianshu.com/p...原创 2018-09-05 17:30:00 · 211 阅读 · 0 评论 -
黑猴子的家:Hadoop NameNode 高可用整体架构概述
Hadoop 1.0 时代Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode 的单点问题尤为严重。因为 NameNode 保存了整个 HDFS 的元数据信息,一旦 NameNode 挂掉,整个 HDFS 就无法访问,同时 Hadoop 生态系统中依赖于 HDFS 的各个组件,包括 MapReduce、Hive、Pig ...原创 2018-09-05 20:30:00 · 264 阅读 · 0 评论 -
黑猴子的家:YARN-HA 配置
1、规划集群hadoop102 hadoop103 hadoop104 NameNode NameNode "" JournalNode JournalNode JournalNode DataNode DataNode DataNode ZK ZK ZK "" ResourceManager Reso...原创 2018-09-05 22:14:00 · 119 阅读 · 0 评论 -
黑猴子的家:Hadoop YARN-HA 工作机制
1、官方文档http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html2、YARN-HA工作机制image.png原创 2018-09-05 17:22:00 · 223 阅读 · 0 评论 -
黑猴子的家:Hadoop 修改本地临时文件存储目录
1、停止进程,按照顺序停止[victor@node1 hadoop-2.8.2]$ sbin/yarn-daemon.sh stop nodemanager[victor@node1 hadoop-2.8.2]$ sbin/yarn-daemon.sh stop resourcemanager[victor@node1 hadoop-2.8.2]$ sbin/hadoop-daemon....原创 2018-09-05 11:56:00 · 514 阅读 · 0 评论 -
黑猴子的家:Hadoop 本地模式运行案例
1、官方grep案例1)在hadoop-2.8.2文件下面创建一个input文件夹[victor@node1 hadoop-2.8.2]$ pwd/opt/module/hadoop-2.8.2[victor@node1 hadoop-2.8.2]$ mkdir input2)将hadoop的xml配置文件复制到input[victor@node1 hadoop-2.8....原创 2018-09-05 11:23:00 · 172 阅读 · 0 评论 -
黑猴子的家:Hadoop 本地安装模式
1、进入到Hadoop安装包路径下[victor@node1 ~]$ cd /opt/software/[victor@node1 software]$ pwd/opt/software2、解压安装文件到/opt/module下面[victor@node1 software]$ tar -xzvf hadoop-2.8.2.tar.gz -C /opt/module/如...原创 2018-09-05 11:17:00 · 164 阅读 · 0 评论 -
黑猴子的家:Hadoop NameNode 高可用 (High Availability) 实现解析
在 Hadoop 的整个生态系统中,HDFS NameNode 处于核心地位,NameNode 的可用性直接决定了 Hadoop 整个软件体系的可用性。本文尝试从内部实现的角度对 NameNode 的高可用机制进行详细的分析,主要包括 NameNode 的主备切换实现分析和 NameNode 的共享存储实现分析。文章的最后在结合作者自身实践的基础上,列举了一些在高可用运维过程中需要注意的事项。...原创 2018-09-05 21:44:00 · 147 阅读 · 0 评论 -
黑猴子的家:Hadoop NameNode 高可用运维中的注意事项
1、初始化部署如果在开始部署 Hadoop 集群的时候就启用 NameNode 的高可用的话,那么相对会比较容易。但是如果在采用传统的单 NameNode 的架构运行了一段时间之后,升级为 NameNode 的高可用架构的话,就要特别注意在升级的时候需要按照以下的步骤进行操作:对 Zookeeper 进行初始化,创建 Zookeeper 上的/hadoop-ha/${dfs.nameser...原创 2018-09-05 21:38:00 · 200 阅读 · 0 评论 -
黑猴子的家:Hadoop NameNode 的共享存储实现
过去几年中 Hadoop 社区涌现过很多的 NameNode 共享存储方案,比如 shared NAS+NFS、BookKeeper、BackupNode 和 QJM(Quorum Journal Manager) 等等。目前社区已经把由 Clouderea 公司实现的基于 QJM 的方案合并到 HDFS 的 trunk 之中并且作为默认的共享存储实现,本部分只针对基于 QJM 的共享存储方案的内...原创 2018-09-05 21:37:00 · 238 阅读 · 0 评论 -
黑猴子的家:Hadoop NameNode 的主备切换实现
NameNode 主备切换主要由 ZKFailoverController、HealthMonitor 和 ActiveStandbyElector 这 3 个组件来协同实现:ZKFailoverController 作为 NameNode 机器上一个独立的进程启动 (在 hdfs 启动脚本之中的进程名为 zkfc),启动的时候会创建 HealthMonitor 和 ActiveStandby...原创 2018-09-05 21:26:00 · 1259 阅读 · 0 评论 -
黑猴子的家:Hadoop 日志聚集
Job运行完成以后,将日志信息上传到HDFS系统上1、配置yarn-site.xml<!-- 开启日志聚集功能 --><property> <name>yarn.log-aggregation-enable</name> <value>true</value></property>原创 2018-09-05 12:34:00 · 1870 阅读 · 0 评论 -
黑猴子的家:Hadoop 历史服务配置启动查看
1)配置mapred-site.xml<!-- 配置 MapReduce JobHistory Server 地址,默认端口10020 --><property><name>mapreduce.jobhistory.address</name><value>node1:10020</value></prop...原创 2018-09-05 12:22:00 · 183 阅读 · 0 评论 -
黑猴子的家:Hadoop 配置文件说明
(1)默认配置文件:存放在hadoop相应的jar包中[core-default.xml]hadoop-common-2.8.2.jar → core-default.xml[hdfs-default.xml]hadoop-hdfs-2.8.2.jar → hdfs-default.xml[yarn-default.xml]hadoop-yarn-common-2.8.2.j...原创 2018-09-05 11:59:00 · 147 阅读 · 0 评论 -
黑猴子的家:Hadoop 组成
1)Hadoop HDFS:一个高可靠、高吞吐量的分布式文件系统。2)Hadoop MapReduce:一个分布式的离线并行计算框架。3)Hadoop YARN:作业调度与集群资源管理的框架。4)Hadoop Common:支持其他模块的工具模块。...原创 2018-09-14 08:44:00 · 156 阅读 · 0 评论 -
黑猴子的家:Hadoop三大发行版本
Hadoop 三大发行版本: Apache、Cloudera、HortonworksApache版本最原始(最基础)的版本,对于入门学习最好。Cloudera在大型互联网企业中用的较多。Hortonworks文档较好。1、Cloudera Hadoop(1)2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持、咨询...原创 2018-09-14 08:37:00 · 337 阅读 · 0 评论 -
黑猴子的家:如何选择Hadoop版本?
当前Hadoop版本比较混乱,让很多用户不知所措。实际上,当前Hadoop只有两个版本:Hadoop 1.0和Hadoop 2.0,其中,Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成,而Hadoop 2.0则包含一个支持NameNode横向扩展的HDFS,一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReduce。相比于Hadoop ...原创 2018-09-13 17:30:00 · 431 阅读 · 0 评论 -
黑猴子的家:Hadoop的五大特性(优点)
1)高可靠性:因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。4)高容错性:自动保存多份副本数据,并且能够自动将失败的任务重新分配。5)成本低(Economical):Ha...原创 2018-09-13 17:28:00 · 3107 阅读 · 0 评论 -
黑猴子的家:Hadoop发展历史
Hadoop大事记2001年年底成为apache基金会的一个子项目2004年— 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。2005年12月— Nutch移植到新的框架,Hadoop在20个节点上稳定运行。2006年1月— Doug Cutting加入雅虎。2006年2月— Apache Hadoop项目正式启动以支...原创 2018-09-13 17:24:00 · 382 阅读 · 0 评论 -
黑猴子的家:Hadoop的起源
2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年2月被分离出来,成为一套完整独立的软件,起名...原创 2018-09-13 17:20:00 · 285 阅读 · 0 评论 -
黑猴子的家:Hadoop 是什么??
1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构2、主要解决,海量数据的存储和海量数据的分析计算问题。3、广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈4、Hadoop: 适合大数据的分布式存储和计算平台5、Hadoop不是指具体一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机...原创 2018-09-13 17:13:00 · 163 阅读 · 0 评论 -
黑猴子的家:Hadoop HA 环境搭建
1、环境准备1)修改IP2)修改主机名及主机名和IP地址的映射3)关闭防火墙4)ssh免密登录5)安装JDK,配置环境变量6)配置Zookeeper集群2、手动故障转移HDFS-HAhttps://www.jianshu.com/p/3bbc3a1c453d3、自动故障转移HDFS-HAhttps://www.jianshu.com/p/d2785a70bbc6...原创 2018-09-05 21:51:00 · 173 阅读 · 0 评论 -
黑猴子的家:Hadoop HA 简述
1、HA概述https://www.jianshu.com/p/eee0e76473052、Hadoop HA工作要点https://www.jianshu.com/p/7ce5b3cf1aad3、HDFS - HA 自动故障转移工作机制https://www.jianshu.com/p/44848ed4cce14、YARN - HA 工作机制https://www.j...原创 2018-09-05 21:44:00 · 338 阅读 · 0 评论 -
黑猴子的家:Hadoop 大数据技术生态体系
1、Sqoopsqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。2、FlumeFlume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,...原创 2018-09-20 09:20:00 · 264 阅读 · 0 评论 -
黑猴子的家:Hadoop 入门
1、Hadoop 是什么??https://www.jianshu.com/p/b7e407e121f22、Hadoop的起源https://www.jianshu.com/p/155952f723ee3、Hadoop发展历史https://www.jianshu.com/p/52dbe56e1c6e4、Hadoop的五大特性(优点)https://www.jiansh...原创 2018-09-20 09:22:00 · 332 阅读 · 0 评论 -
黑猴子的家:Hadoop 集群间数据拷贝
集群间数据拷贝,可以使用scp rsync distcp等等 方法,再次我只介绍一下distcp,scp和rsync在linux章节已有介绍,就不多说了1、网址http://hadoop.apache.org/docs/r2.8.2/hadoop-distcp/DistCp.html2、概述DistCp版本2(分布式副本)是用于大型集群间/集群内复制的工具。它使用MapRedu...原创 2018-09-25 14:20:00 · 232 阅读 · 0 评论 -
黑猴子的家:Hadoop DataNode 多目录配置
datanode也可以配置成多个目录,每个目录存储的数据不一样。即:数据不是副本。具体配置如下hdfs-site.xml<property> <name>dfs.datanode.data.dir</name> <value>file:///${hadoop.tmp.dir}/dfs/data1,file:///${ha...原创 2018-09-25 14:10:00 · 782 阅读 · 0 评论 -
黑猴子的家:Hadoop 退役旧数据节点
1、在namenode节点的/opt/module/hadoop-2.8.2/etc/hadoop目录下创建dfs.hosts.exclude文件[victor@node1 hadoop]$ cd /opt/module/hadoop-2.8.2/etc/hadoop[victor@node1 hadoop]$ pwd/opt/module/hadoop-2.8.2/etc/hadoop...原创 2018-09-25 14:01:00 · 149 阅读 · 0 评论 -
黑猴子的家:Hadoop 服役新数据节点
随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。1、环境准备(1)克隆一台虚拟机(2)修改ip地址和主机名称(3)SSH免密(4)删除克隆虚拟机里面HDFS文件系统留存的文件2、在namenode的/opt/module/hadoop-2.8.2/etc/hadoop目录下创建dfs.hosts文件...原创 2018-09-25 13:34:00 · 175 阅读 · 0 评论 -
黑猴子的家:Hadoop之Namenode多目录配置
namenode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性。1、具体配置如下hdfs-site.xml<property> <name>dfs.namenode.name.dir</name> <value>file:///${hadoop.tmp.dir}/dfs/name1,file:///${ha...原创 2018-09-25 13:11:00 · 528 阅读 · 0 评论