大象为什么会跳舞-Hadoop技术探秘
对于大数据的入门者,很多人想了解Hadoop这头大象,由于Hadoop体系庞大,最终犹如盲人摸象,不得全貌。而对于有着多年大数据使用经验的人来说,尽管可以驾驭这头大象,但仍旧经常遇到困惑,很想知道如此笨拙的大象也能够翩翩起舞背后的秘密。那么本专栏正是为您而来。
相信大家在学习Hadoop的时候,看过很多书,但总有一些疑问和不解,似乎有那么一点点窗户纸就是没有被捅破,因此,学习的效率并不高,或者总是不能从深层解释Hadoop的各种原则。《大象为什么会跳舞--Hadoop技术探秘》这个专栏编写的目的就是要解决您在学习Hadoop中遇到的这些问题。
本课程向您介绍了Hadoop为什么会成为流行的大数据处理平台,Hadoop具有怎样的特性,并且详细介绍了Hadoop的生态圈组件,Hadoop内部工作原理,MapReduce工作过程、集群高可用、作业调度、分布式缓存、自动故障转移等内容,最后对Hadoop2.x和Hadoop3.x做出对比。
正如专栏标题所揭示的一样,本专栏在介绍概念的同时,重点在向您说明为什么会这样,相信通过本专栏的学习,您会对Hadoop有更清晰的认识。
Hadoop已经不再是曾经的那个玩偶,如今已经长成一头大象,其体系非常庞大,相信本专栏向您介绍的关键技术话题,给您带来启发,使您不再有盲人摸象的感觉,这就是本专栏的初衷。
那么,即将做为骑象人的您,让我们扬鞭启程吧!
isscollege
这个作者很懒,什么都没留下…
展开
-
14-如何合-Partitioner&Combiner&Shuffle&OutputFormat解析
Hadoop Partitioner&Combiner&Shuffle&OutputFormat解析1 概述我们在本节的目标是关注数据的归并过程,包括Partitioner、Combiner、Shuffle&Sort以及OutputFormat等组件合过程。对于Partioner,我们将讨论什么是Hadoop Partitioner。MapReduce中的Pa...原创 2019-12-30 10:11:35 · 488 阅读 · 0 评论 -
13-如何分-InputFormat&InputSplit&RecordReader解析
Hadoop InputFormat&InputSplit&Recorder解析1 概述本节我们来介绍InputFormat、InputSplit以及Recorder,了解Hadoop是如何使用这些组件来分割数据的。我们从而掌握这些组件之间的联系和区别。2 Hadoop InputFormatHadoop InputFormat检查作业的输入规范。InputFormat将...原创 2019-12-30 10:09:34 · 748 阅读 · 1 评论 -
12-何为分,何为合-Mapper&Reducer介绍
Mapper&Reducer介绍1 Mapper&Reducer概述MapReduce是Hadoop进行数据处理的核心组件。Hadoop MapReduce是一个软件框架,通过它我们可以非常轻松的写出应用程序来处理存储在Hadoop分布式文件系统中的各种结构化和非结构化的数据。MapReduce工作分成两个阶段:Map阶段和Reduce阶段。每个阶段都以键值对作为输入和输出。...原创 2019-12-28 09:09:46 · 1731 阅读 · 0 评论 -
11-合久必分,分久必合-MapReduce数据流
Hadoop 3.x 介绍本章目标Hadoop3.x新特性Hadoop2.x VS Hadoop3.xHadoop3.x的优势和劣势1 Hadoop3.x新特性Hadoop3.x的发布是Hadoop的里程碑。很多人都很关心Hadoop3.x相对于Hadoop2.x有哪些增强的特性。我们本节将介绍Hadoop3的新特性,并且让你知道它和旧版本有怎样的不同。在Hadoop3中有如下...原创 2019-12-28 09:09:05 · 360 阅读 · 0 评论 -
10-不去培育更大的象-MapReduce编程模型
Hadoop分布式缓存本章目标Hadoop分布式缓存Hadoop分布式缓存1 概述我们将在本节了解什么是Hadoop分布式缓存,在Hadoop框架中如何使用和实现分布式缓存。我们还将涉及分布式缓存的优势和限制。Apache Hadoop是一个开源软件框架。它是一个分布式存储系统也是一个大数据集处理系统。Hadoop遵守主从结构。在主节点上运行着NameNode,而从节点运行Data...原创 2019-12-25 12:32:08 · 375 阅读 · 0 评论 -
09-大象调度规则-作业调度
Hadoop调度器-Hadoop作业调度本章目标Hadoop调度器1 Hadoop调度器本节我们将介绍Hadoop调度器,首先,我们将了解什么是调度器,然后介绍Hadoop中调度器的类型,我们还会介绍每种调度器适合在何时使用,才能进行简单而高效的调度。最后,我们将进一步讨论Hadoop调度的开发以及调度方式。什么是Hadoop调度器Hadoop就是一个能够在分布式节点上高效完成处理...原创 2019-12-25 12:29:11 · 243 阅读 · 0 评论 -
08-永不停歇的大象-Hadoop高可用与自动故障转移
Hadoop高可用与自动故障转移本章目标什么是Hadoop高可用什么是故障转移自动故障转移1 什么是Hadoop高可用在Hadoop2.0之前,也就是Hadoop1.0面临NameNode的单点故障( single point of failure,SPOF)问题。这就意味着,如果NameNode失效则整个系统将失去功能,此时就需要人为介入,在宕机时间,利用secondary Na...原创 2019-12-25 12:28:42 · 621 阅读 · 0 评论 -
07-聊聊象群-介绍Hadoop集群
Hadoop集群介绍本章目标Hadoop集群概述Hadoop集群结构数据本地性1 Hadoop集群概述本节我们将了解Hadoop框架的核心内容,Hadoop集群。首先,我们需要了解什么是Hadoop集群,然后,我们将了解它的基本结构和协议,最后,我们将讨论Hadoop集群给我们带来的各种好处。接下来,我们就开始了解Hadoop集群。Hadoop集群就是一组计算机通过LAN进行连...原创 2019-12-25 12:28:19 · 532 阅读 · 0 评论 -
06-大象的局限-Hadoop局限及解决方案
Hadoop局限及其解决方案本章目标Hadoop概述Hadoop局限1 Hadoop概述尽管Hadoop是最强大的大数据处理工具,但是它也有各种局限,比如,Hadoop并不适合小文件,它不能处理实时数据,处理速度慢,迭代处理效率低,缓存效率低等等。在本节,我们首先学习介绍Hadoop,Hadoop的优劣,Hadoop哪些特点使其如此流行。接着,我们将介绍Hadoop的13个主要的缺...原创 2019-12-23 14:28:08 · 441 阅读 · 0 评论 -
05-大象与数据分析-Hadoop5大分析工具
Hadoop 5大分析工具-深入数据分析本章目标Hadoop的5大分析工具Hadoop的5大分析工具Hadoop是开源的分布式存储和数据处理框架。它出于大数据生态圈的中心。它被用于包括预测分析,数据挖掘以及机器学习在内的高级分析。Hadoop技术用于管理数据处理过程,为大数据应用程序存储数据。它可以处理各种结构化和非结构化的数据。下面我们来讨论Hadoop分析工具。1 Spark...原创 2019-12-23 14:26:16 · 626 阅读 · 0 评论 -
04-Hadoop为什么会跳舞-Hadoop是如何工作的
Hadoop内部是如何工作的-深入Hadoop本章目标Hadoop架构Hadoop工作原理Hadoop架构Apache Hadoop是一个开源软件框架,它以分布式的方式存储数据,并以并行的方式处理数据。Hadoop提供了世界上最可靠的存储层-HDFS,一个批处理引擎-MapReduce以及一个资源管理层-YARN。在本节,我们将深入Hadoop,了解Hadoop内部是如何工作的。...原创 2019-12-23 14:25:28 · 178 阅读 · 0 评论 -
03-不做盲人摸象-Hadoop架构详解
Hadoop架构详解-HDFS&Yarn&MapReduce本章目标Hadoop架构概述HDFSMapReduceYARNHadoop架构设计原则1. Hadoop架构概述Hadoop如今已经成为非常流行的解决方案。Hadoop在设计之初就考虑了各种问题,包括,容错、处理大数据集、数据本地化、不同硬件和软件平台间的可移植性等等。在本节,我们将详细介绍Hadoop...原创 2019-12-16 12:45:35 · 885 阅读 · 0 评论 -
02-大象和它的家人们-Hadoop生态圈详解
Hadoop生态圈及其组件介绍本章目标Hadoop生态圈组件1.Hadoop生态圈组件我们在前面已经概要介绍了Hadoop生态圈,我们本节将就Hadoop生态圈的各种组件进行详细介绍,包括各个组件的构成,其他特点,我们将学习包括HDFS及HDFS的组件,MapReduce,YARN,Hive,Apache Pig,Apache HBase及HBase组件,HCatalog,Avro,T...原创 2019-12-13 07:53:52 · 675 阅读 · 0 评论 -
01-大象你好-Hadoop介绍
Hadoop介绍本章目标Hadoop介绍Hadoop技术架构1 Hadoop介绍Hadoop是什么Apache Hadoop是用Java写的开源,可扩展、而且容错的数据处理框架Hadoop可以在普通硬件集群上高效处理大量数据集Hadoop不仅是一个存储系统,而且也是大数据的处理平台Hadoop是来自ASF(Apache Software Foundation)的开...原创 2019-12-11 12:33:40 · 474 阅读 · 0 评论 -
00-为什么要做骑象人--解锁Hadoop高薪之路
为什么要做骑象人–解锁Hadoop高薪之路1.数据也疯狂数据和每个人甚至是每个时代都息息相关,即使你穿越到人类才刚刚学会使用工具的石器时代,假如你就是那个手握石斧,躲在草丛之后窥视一群肥羊的原始人,你都要在心理盘算着这样一堆数据,我已经2天没吃饭了,以现在的体力,我的奔跑速度只能抓到羊群中那只最小的羊,这只羊大约有30斤,我家里一家老小共5人,追到这只肥羊省着点吃,可以吃上3天…假如你还是一个...原创 2019-12-11 08:34:56 · 376 阅读 · 0 评论