Apache VS Cloudera

一、一句话告诉你CDH平台是什么

正如开源的Linux系统有很多发行版一样,Hadoop也被众多公司二次开发产生了各种发行版本。
在这里插入图片描述
PS:Linux发行版我用红帽公司的CentOS,Hadoop发行版我用Cloudera公司的CDH(Cloudera’s Distribution Including Apache Hadoop)。

二、Apache Hadoop存在的问题

提到大数据、分布式存储就不得不提到Apache开源的Hadoop。Hadoop凭借着其丰富的生态圈、稳定可靠的性能、良好的拓展性、可二次编程等众多特性,成为很多公司大数据业务的技术选型。下图为2014年统计出的各个领域涉足big data的公司。
在这里插入图片描述
Apache Hadoop虽然开源免费、文档全,但是还会存在很多问题:

在这里插入图片描述
1、版本混乱,兼容性差
Hadoop生态圈由众多服务组成,每个服务又有自己的版本更新速度,以及管理规范。很多公司在选型的时候就会被各种版本的Hadoop服务困惑,比如选择安装Hbase2.1。我就需要去查文档去找与之匹配的HDFS、YARN、Hive的版本,集成的版本过高或过低都会出现兼容性问题。后期万一需要某个服务的版本升级,更是牵一发而动全身。
2、部署复杂,耗时长
Hadoop环境部署过的同学都知道有多心酸。这么庞大的一个生态圈,仅仅是安装最基本的数据仓库存储服务,就需要HDFS、Hbase、Hive、YARN等其他一些依赖服务。如果公司的业务范围再广一些,涉及到大数据分析、计算。那整套环境的架构就会相当复杂,熟练的大数据运维人员也会花费相当长的时间,再如果公司有数百台服务器集群,那就真是要了运维人员的老命了。
3、集群健康状况难以监控
如果运维人员真的拼了老命,一个月内将百台集群搭建成功了,那么更重要的事情就来了,如何监控这数百台服务的集群健康呢。使用监控软件的话不够灵活,不能准确判断出是哪个服务出现了什么问题。如果使用灵活的脚本去判断,那么就需要对Hadoop服务比较深的了解,才能编写出较完善的脚本,这类人员还是比较缺乏的,创业型的中小公司可能都不会有专门的大数据运维人员。
4、安全性不可保障
数据安全一直是很重要的一个问题,使用Apache开源的Hadoop,即使成功部署了,但是如何去保障存储的数据安全呢。这个问题可能是最难解决的,因为Hadoop生态的每个服务都会有很多端口,整个生态圈将会暴露近三四十个端口,每个端口可能都会被扫描到而被入侵,导致整个集群被攻陷。如何保障集群的安全,这是一个较为严重的问题

三、Cloudera CDH平台的优势

为了解决Apache Hadoop遇到的这些问题,Cloudera推出了CDH平台,完美解决这些痛点。
该平台中有一个Cloudera Management服务(简称CM),这算是整个平台的核心服务。
在这里插入图片描述
1、该应用程序使集群安装过程自动化,将部署时间从几周缩短到几分钟,可以快速新增主机、添加集群。
2、提供专业仪表盘,集群中的每个服务健康都能得到监控,异常报警。
3、提供故障分析,会给出故障发生的原因,并提供建议解决方案,没有专业大数据运维也可以使用。
3、版本更新快,集成稳定版Hadoop,封装成集成环境,彻底解决各种服务的版本兼容问题。
4、支持Kerberos安全认证,解决数据安全问题。
5、有完善的文档,有免费、商业版两个版本进行使用。商业版提供更安全的数据保障,以及专业的售后支持。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值