大数据之Hadoop生态系统概述

标签: 大数据 Hadoop 生态系统
110人阅读 评论(3) 收藏 举报
分类:

一、什么是大数据        

        首先,我们来了解一下,什么是大数据?大数据(BigData)是指无法在一定时间内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率、多样化的信息资产。由IBM提出的大数据的五个特征(5V):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。

        大数据的核心是Hadoop生态系统。我们通常可能会根据特定的用特来描述软件工具,比如:Oracle是数据库、Apache Tomcat 是 Web 服务器。不过,Hadoop就有些复杂,Hadoop 是大量工具集合,这些工具可以协同工作来完成特定的任务。可以说Hadoop是一个数据管理系统,将海量的结构化和非结构化数据聚集在一起,这些数据涉及传统企业数据栈的几乎每一个层次,其定位是在数据中心占据核心地位。也可以说,Hadoop 是大规模并行执行框架,把超级计算机的能力带给大众,致力于加速企业级应用的执行。由于 Hadoop 提供如此广泛的功能,可以适用于解决大量问题,也可以说,Hadoop 是基础框架。Hadoop 提供所有这些功能,因此应该将 Hadoop 归类为一个生态系统,它包含大量的组件,从数据存储到数据集成、数据处理以及数据分析师的专用工具。

二、Hadoop生态系统概述

        下图是Hadoop生态系统的核心组件

        

        Hadoop 框架中最核心设计就是:HDFS 和 MapReduce。HDFS 提供了海量数据的存储,  MapReduce 提供了对数据的计算。

  • HDFS  :Hadoop 生态系统的基础组件是 Hadoop 分布式文件系统(HDFS)HDFS的机制是将大量数据分布到计算机集群上,数据一次写入,但可以多次读取用于分析。它是其他一些工具的基础,例如 HBase

  • MapReduce  :Hadoop 的主要执行框架即 MapReduce,它是一个用于分布式并行数据处理的编程模型,将job分为 mapping 阶段和 reduce 阶段(因此而得名)。开发人员为 Hadoop 编写 MapReduce Job,并使用 HDFS 中存储的数据,而 HDFS 可以保证快速的数据访问。鉴于 MapReduce 的特性,Hadoop 以并行的方式将处理过程移向数据,从而实现快速处理。

  • HBase  :一个构建在 HDFS 之上的面向列的 NoSQL 数据库,HBase 用于对大量数据进行快速读取/写入。HBase Zookeeper 用于自身的管理,以保证其所有组件都正在运行。

  • Zookeeper  :Zookeeper Hadoop 的分布式协调服务。Zookeeper 被设计成可以在机器集群上运行,是一个具有高度可用性的服务,用于 Hadoop 操作的管理,而且很多 Hadoop 组件都依赖它。

  • Pig  :MapReduce 编程复杂性的抽象,Pig 平台包含用于分析 Hadoop 数据集的执行环境和脚本语言(Pig Latin)。它的编译器将 Pig Latin 翻译为 MapReduce 程序序列。

  • Hive  :类似于 SQL 的高级语言,用于执行对存储在 Hadoop 中数据的查询,Hive允许不熟悉MapReduce的开发人员编写数据查询语句,它会将其翻译为Hadoop中的 MapReduce Job。类似于 PigHive 是一个抽象层,但更倾向于面向较熟悉 SQL而不是 Java 编程的数据库分析师。

  • Oozie  :一个可扩展的 Workflow 系统,Oozie 已经被集成到 Hadoop 软件栈中,用于协调多个 MapReduce Job的执行。它能够处理大量的复杂性,基于外部事件(包括定时和所需数据是否存在)来管理执行。

        Hadoop 生态系统还包含一些用于与其他企业级应用进行集成的框架:

  • Sqoop 是一个连通性工具,用于在关系型数据库和数据仓库与 Hadoop 之间移动数据。Sqoop 利用数据库来描述导入/导出数据的模式,并使用 MapReduce 实现并行操作和容错。

  • Flume 是一个分布式的、具有可靠性和高可用性的服务,用于从单独的机器上将大量数据高效地收集、聚合并移动到 HDFS 中。它基于一个简单灵活的架构,提供流式数据操作。它借助于简单可扩展的数据模型,允许将来自企业中多台机器上的数据移至 Hadoop

三、概念上Hadoop企业级应用


查看评论

CloudCC生态软件包开发教程

-
  • 1970年01月01日 08:00

大数据(一) - hadoop生态系统及版本演化

HDFS:分布式存储系统(Hadoop Distributed File System):提供了高可靠性、高扩展性和高吞吐率的数据存储服务             HDFS源自于Google的GFS论...
  • matthewei6
  • matthewei6
  • 2016-01-11 20:30:22
  • 5102

Hadoop生态的四层架构以及大数据技术发展五大演进趋势

大数据技术发展五大演进趋势 • 混合架构将消失 • 固态硬盘将替代内存作为缓存 • 实时大数据技术得到关注 • 云计算拥抱大数据 • 存储统一化...
  • hujutaoseu
  • hujutaoseu
  • 2017-03-11 21:20:02
  • 759

什么是HADOOP、产生背景、在大数据、云计算中的位置和关系、国内外HADOOP应用案例介绍、就业方向、生态圈以及各组成部分的简介(学习资料中的文档材料)

1. HADOOP背景介绍1. 1.1 什么是HADOOP1.        HADOOP是apache旗下的一套开源软件平台2.        HADOOP提供的功能:利用服务器集群,根据用户的自定...
  • toto1297488504
  • toto1297488504
  • 2017-05-26 20:30:56
  • 1399

Hadoop 大数据平台架构与实践

初识HadoopHadoop是一个开源的分布式存储+分布式计算平台。Hadoop核心组成部分: HDFS:分布式文件系统,存储海量的数据。 MapReduce:并行处理框架,实现任务分解和调度。 Ha...
  • u013159040
  • u013159040
  • 2016-06-05 10:26:28
  • 586

复杂的大数据技术栈

提到大数据,很多人可能都听说过4V - Big Volume, Big Velocity, Big Variety, Big Value,大数据从业人员的工作内容也都和这4个V中的某些内容密切相关。 ...
  • u013710265
  • u013710265
  • 2017-05-20 16:19:35
  • 2315

基础篇:Hadoop组件与生态系统介绍

从2014年开始,大数据逐渐发展壮大起来。越来越多的公司开始使用大数据,包括日常事务管理及复杂业务方案探究。大数据已经很快地从一个被夸大的词汇转变成了一个可行的技术,无论业务规模是大还是小。  ...
  • hmy1106
  • hmy1106
  • 2015-02-11 22:52:26
  • 2206

大数据生态系统基础:Hadoop(三):Hadoop 3.0.0 HDFS 体系结构

一、介绍       Hadoop分布式文件系统(HDFS)是一种分布式文件系统,设计用于在商品硬件上运行。它与现有的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的区别是显著的。HDFS...
  • caridle
  • caridle
  • 2017-08-18 20:49:29
  • 852

转载知乎一篇关于大数据生态技术的文章

在知乎看到的一篇关于大数据生态技术的文章, 文章写的很赞,通俗易懂,特地转载,以便学习方便。 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而...
  • u010395948
  • u010395948
  • 2016-03-29 20:10:13
  • 685

大数据领域的JAVA 学习光速入门

JAVA 学习光速入门,完成大数据的JAVA入门
  • duan_zhihua
  • duan_zhihua
  • 2016-02-13 19:49:00
  • 667
    个人资料
    持之以恒
    等级:
    访问量: 5023
    积分: 201
    排名: 37万+
    文章存档
    最新评论