Apache hadoop:社区人员比较多,更新频繁比较快,但稳定性比较差,安装配置繁琐,使用者少
Cloudera Hadoop(CDH):Cloudera公司的发行版本,基于Apache Hadoop的二次开发,优化了组件兼容和交互接口、简化安装配置、提供界面统一管理程序。
Apache hadoop :
Hadoop是一个能对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性。
- 高可靠性
采用冗余数据存储方式,即使一个副本发生故障,其他副本也可以保证正常对外提供服务。
- 高效性
作为并行分布式计算平台,Hadoop采用分布式存储和分布式处理两大核心技术,能够高效的处 理PB级数据。
- 高可扩展性
Hadoop的设计目标是可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算 机节点上。
- 高容错性
采用冗余数据存储方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配。
- 成本低
Hadoop采用廉价的计算机集群,成本比较低,普通用户也很容易用自己的PC搭建Hadoop运 行环境。
- 运行在Linux平台上
Hadoop是基于Java语言开发的,可以较好地运行在Linux平台上。
- 支持多种编程语言
Hadoop上的应用程序也可以使用其他语言编写,如C++。
CDH 提供以下特性:
- 灵活性:存储任何类型的数据并使用各种不同的计算框架进行操作,包括批处理、交互式SQL、文本搜索、机器学习和统计计算。
- 集成:在一个完整的Hadoop平台上快速启动和运行,该平台与广泛的硬件和软件解决方案一起工作。
- 安全:处理和控制敏感数据。
- 可伸缩性:启用广泛的应用程序和规模,并扩展它们以满足您的需求。
- 高可用性:稳定地执行关键的业务任务。
- 兼容性:利用您现有的IT基础设施和投资。
Cloudera Manager 是用于管理cdh集群的端到端应用程序,统一管理和安装。CDH除了可以通过cm安装也可以通过yum,tar,rpm安装。主要由如下几部分组成:
-
服务端/Server:
Cloudera Manager 的核心。主要用于管理 web server 和应用逻辑。它用于安装软件,配置,开始和停止服务,以及管理服务运行的集群。 -
代理/agent:
安装在每台主机上。它负责启动和停止进程,部署配置,触发安装和监控主机。 -
数据库/Database:
存储配置和监控信息。通常可以在一个或多个数据库服务器上运行的多个逻辑数据库。例如,所述的 Cloudera 管理器服务和监视,后台程序使用不同的逻辑数据库。
Cloudera Repository:由cloudera manager 提供的软件分发库。 -
客户端/Clients:
提供了一个与 Server 交互的接口。