一、Cloudera Manager产生的背景
1、Apache版本的大数据组件
Hadoop的原始版本为Apache的开源版本,在国内的使用非常多。
Apache版本的Hadoop集群优点:
- 完全开源,更新速度很快
- 大数据组件在部署过程中可以深刻了解其底层原理
- 可以了解各个组件的依赖关系
Apache版本的Hadoop集群缺点:
- 部署过程极其复杂,超过20个节点的时候,手动部署已经超级累
- 各个组件部署完成后,各个为政,没有统一化管理界面
- 组件和组件之间的依赖关系很复杂,一环扣一环,部署过程心累
- 各个组件之间没有统一的metric可视化界面,比如说hdfs总共占用的磁盘空间、IO、运行状况等
- 优化等需要用户自己根据业务场景进行调整(需要手工的对每个节点添加更改配置,效率极低,我们希望的是一个配置能够自动的分发到所有的节点上)
2、CDH版本大数据组件
正是为了解决Apache原生版本的各种缺陷,诞生了可以使用Cloudera Manager进行管理的CDH版本。CDH是Apache Hadoop和相关项目中最完整、最稳定的、经过测试和最流行的发行版。Cloudera Manager是用于管理CDH群集的B/S应用程序。
CDH版本的Hadoop集群优点:
- 统一化的可视化界面 自动部署和配置,大数据各类组件(hadoop、hive、hue、kudu、impala、zookeeper等)安装、调优极其便捷 零停机维护(免费版本不具有弹性升级)
- 多用户管理(权限控制)
- 稳定性极好(部分优化措施都已经调整好)
CDH版本的Hadoop集群缺点:
- server和agent需要占用额外的内存和cpu(server占用内存为2G,agent占用内存1G,总共cpu为0.5核)
- 对linux常用命令需要了解颇深
- 对hadoop的apache版本有一定的安装经验和调优经验