《Hadoop大数据分析与挖掘实战》——2.1节概述

最新推荐文章于 2024-10-08 11:05:38 发布

weixin_33979363

最新推荐文章于 2024-10-08 11:05:38 发布

阅读量118

点赞数

文章标签：大数据数据库操作系统

原文链接：https://yq.aliyun.com/articles/108747

版权

本节书摘来自华章社区《Hadoop大数据分析与挖掘实战》一书中的第2章，第2.1节概述，作者张良均　樊哲　赵云龙　李成华　，更多章节内容可以访问云栖社区“华章社区”公众号查看

2.1　概述
2.1.1　Hadoop简介
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。Hadoop以分布式文件系统HDFS（Hadoop Distributed File System）和MapReduce（Google MapReduce的开源实现）为核心，为用户提供了系统底层细节透明的分布式基础架构。分布式文件系统HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上，形成分布式文件系统；MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。所以用户可以利用Hadoop轻松地组织计算机资源，简便、快速地搭建分布式计算平台，并且可以充分利用集群的计算和存储能力，完成海量数据的处理。
Apache Hadoop目前版本（2.X版）含有以下模块：Hadoop通用模块，支持其他Hadoop模块的通用工具集；Hadoop分布式文件系统（HDFS），支持对应用数据高吞吐量访问的分布式文件系统；Hadoop YARN，用于作业调度和集群资源管理的框架；Hadoop MapReduce，基于YARN的大数据并行处理系统。
Hadoop目前除了社区版，还有众多厂商的发行版本。各个厂商发布的版本有一些差异，现将各个主流的发行版本介绍如下：
Cloudera：最成型的发行版本，拥有最多的部署案例；提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目。
Hortonworks：100%开源的Apache Hadoop唯一提供商。Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。并且，它们的Stinger极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的，易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干，这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsft Windows平台上本地运行。
MapR：与竞争者相比，它使用了一些不同的概念，特别是为了获取更好的性能和易用性而支持本地UNIX文件系统而不是HDFS（使用非开源的组件）。我们可以使用本地UNIX命令来代替Hadoop命令。除此之外，MapR还凭借诸如快照、镜像或有状态的故障恢复之类的高可用性特性来与其他竞争者相区别。该公司也领导着Apache Drill项目，本项目是Google的Dremel的开源项目的重新实现，目的是在Hadoop数据上执行类似SQL的查询以提供实时处理。
Amazon Elastic Map Reduce（EMR）：区别于其他提供商的是，这是一个托管的解决方案，其运行在由Amazon Elastic Compute Cloud（Amazon EC2）和Amzon Simple Strorage Service（Amzon S3）组成的网络规模的基础设施之上。除了Amazon的发行版本之外，你也可以在EMR上使用MapR，临时集群是主要的使用情形。如果你需要一次性的或不常见的大数据处理，EMR可能会为你节省大笔开支。然而，这也存在不利之处。其只包含了Hadoop生态系统中Pig和Hive项目，在默认情况下不包含其他很多项目。并且，EMR是高度优化成与S3中的数据一起工作的，这种方式会有较高的延时并且不会定位于你的计算节点上的数据。所以处于EMR上的文件IO相比于你自己的Hadoop集群或你私有EC2集群来说会慢很多，并有更大的延时。
2.1.2　Hadoop生态系统
Hadoop生态系统主要包括：Hive、HBase、Pig、Sqoop、Flume、ZooKeeper、Mahout、Spark、Storm、Shark、Phoenix、Tez、Ambari，每个项目的简介如下：
Hive：用于Hadoop的一个数据仓库系统，它提供了类似于SQL的查询语言，通过使用该语言，可以方便地进行数据汇总，特定查询以及分析存放在Hadoop兼容文件系统中的大数据。
Hbase：一种分布的、可伸缩的、大数据存储库，支持随机、实时读/写访问。
Pig：分析大数据集的一个平台，该平台由一种表达数据分析程序的高级语言和对这些程序进行评估的基础设施一起组成。
Sqoop：为高效传输批量数据而设计的一种工具，其用于Apache Hadoop和结构化数据存储库如关系数据库之间的数据传输。
Flume：一种分布式的、可靠的、可用的服务，其用于高效搜集、汇总、移动大量日志数据。
ZooKeeper：一种集中服务，其用于维护配置信息，命名，提供分布式同步，以及提供分组服务。
Mahout：一种基于Hadoop的机器学习和数据挖掘的分布式计算框架算法集，实现了多种MapReduce模式的数据挖掘算法。
Spark：一个开源的数据分析集群计算框架，最初由加州大学伯克利分校AMPLab开发，建立于HDFS之上。Spark与Hadoop一样，用于构建大规模、低延时的数据分析应用。Spark采用Scala语言实现，使用Scala作为应用框架。
Storm：一个分布式的、容错的实时计算系统，由BackType开发，后被Twitter收购。Storm属于流处理平台，多用于实时计算并更新数据库。Storm也可被用于“连续计算”（continuous computation），对数据流做连续查询，在计算时就将结果以流的形式输出给用户。它还可用于“分布式RPC”，以并行的方式运行大型的运算。
Shark：即Hive on Spark，一个专为Spark打造的大规模数据仓库系统，兼容Apache Hive。无需修改现有的数据或者查询，就可以用100倍的速度执行Hive QL。Shark支持Hive查询语言、元存储、序列化格式及自定义函数，与现有Hive部署无缝集成，是一个更快、更强大的替代方案。
Phoenix：一个构建在Apache HBase之上的一个SQL中间层，完全使用Java编写，提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器，对于简单查询来说，其性能量级是毫秒，对于百万级别的行数来说，其性能量级是秒。
Tez：一个基于Hadoop YARN之上的DAG（有向无环图，Directed Acyclic Graph）计算框架。它把Map/Reduce过程拆分成若干个子过程，同时可以把多个Map/Reduce任务组合成一个较大的DAG任务，减少了Map/Reduce之间的文件存储。同时合理组合其子过程，减少任务的运行时间。
Ambari：一个供应、管理和监视Apache Hadoop集群的开源框架，它提供一个直观的操作工具和一个健壮的Hadoop API，可以隐藏复杂的Hadoop操作，使集群操作大大简化。