简介
hadoop是一个开源项目,所以很多公司在这个基础进行商业化,Cloudera对hadoop做了相应的改变。
Cloudera公司的发行版,我们将该版本称为CDH(Cloudera Distribution Hadoop)。
CDH 6.2.1 包含组件
Component | Component Version |
---|---|
Apache Flume | 1.9.0 |
Apache Hadoop | 3.0.0 |
Apache HBase | 2.1.2 |
Apache Hive | 2.1.1 |
Apache Kafka | 2.1.0 |
Apache Oozie | 5.1.0 |
Apache Spark | 2.4.0 |
Apache Sqoop | 1.4.7 |
Apache ZooKeeper | 3.4.5 |
… | … |
详见:https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_6_version_packaging_download.html
CDH优点
- 版本划分清晰
- 版本更新速度快
- 支持Kerberos安全认证
- 文档清晰
- 支持多种安装方式(Cloudera Manager方式)
同类产品对比
CDH与Apache版本Hadoop
Apache Hadoop 不足之处:
- 版本管理混乱
- 部署过程繁琐、升级过程复杂
- 兼容性差
- 安全性低
对于国内而言,绝大多数公司选择CDH版本
但是自 2021 年 1 月 31 日开始,所有 Cloudera 软件都需要订阅(付费)。也就是说打算免费使用的话, 安装部署/升级维护就比较麻烦了, 详见:
https://www.clouderacn.cn/downloads/paywall-expansion.html#
另外从学习/测试的方面来说, 一方面CDH使用的最小内存要比Hadoop大很多, 另一方面CDH开始收费, 找安装包资源也比较费劲, 所以Apache版本的Hadoop更适合学习测试
安装部署使用(待补充)
使用
CDH 中常用的文件目录
/var/log/cloudera-scm-installer : 安装日志目录。
/var/log/* : 相关日志文件(相关服务的及CM的)。
/usr/share/cmf/ : 程序安装目录。
/usr/lib64/cmf/ : Agent程序代码。
/var/lib/cloudera-scm-server-db/data : 内嵌数据库目录。
/usr/bin/postgres : 内嵌数据库程序。
/etc/cloudera-scm-agent/ : agent的配置目录。
/etc/cloudera-scm-server/ : server的配置目录。
/opt/cloudera/parcels/ : Hadoop相关服务安装目录。
/opt/cloudera/parcel-repo/ : 下载的服务软件包数据,数据格式为parcels。
/opt/cloudera/parcel-cache/ : 下载的服务软件包缓存数据。
/etc/hadoop/* : 客户端配置文件目录。
CDH 6 常用端口
- ClouderaManager:7180
- NameNode:9870
- DataNode:9864
- Yarn-ResourceManager:8088
- Yarn-NodeManager:8042