大数据集群搭建方案对比

1.前言

回顾从前,已经在大数据领域混了5年了,经手了不少大数据集群搭建方案,自己也做过许多大数据平台的运维工作,在这里进行阶段性的总结。

2.大数据集群方案对比

简单直接,这里站在生产环境的角度考虑如何选择集群搭建方案,大致有如下几个维度:

对比项原生HadoopCDHHDP(Ambari)
是否开源完全开源收费/免费(可商用)开源
安装方式手动工具工具
适用集群规模10个节点以内n个节点n个节点
搭建复杂度困难容易容易
运维难度困难容易中等
市场占有率
所属机构ApacheClouderaHortonwork

接下来进行一些扩展:

  • CDP

    CDP是 2018年 Cloudera与 Hortonworks以 52亿美元价格宣布合并之后,新公司所发布的首款新产品,也是一个基于云的大数据平台,需要付费使用。至此,CDH 6.x就是最后一个版本了,HDP也不会更新了,后面就只有 CDP了。

  • 国内商用大数据平台

    笔者接触的国内商用大数据平台有:

    ​ 华为 FusionInsight和 腾讯 TBDS两家,其中 华为FI落地是在上海,集群规模 100+,根据业务特点,单独部署了 Spark集群和 HBase集群;腾讯 TBDS落地在江苏,集群规模 50+,据说腾讯这个是基于 Ambari进行二次开发的,整体易用性和稳定性都很不错。

对于集群搭建方案的选择,这里笔者也给出一些自己的看法:

  • CDH ——国内公司首选

    节点数量不多,小于 50个节点,基本不会对组件进行修改,重点在于大数据应用的开发,选它。

  • HDP

    可能会对组件进行调整,不满于 CDH免费版的一些限制,选它。

  • 原生 Hadoop ——完全开源

    集群规模小,比如 内部开发环境;需要修改组件源码,做一些定制化,选它。

  • 商用大数据平台

    项目或者产品的预算够,选它。

3.总结

笔者上一家公司第一代大数据平台使用的是 CDH免费版,因为其中的不少限制,第二代大数据平台选择了开放性更好的 HDP(Ambari)。现公司,原生 Hadoop和 CDH并存,为什么呢?信创。由于信创机器的限制,CDH无法在上面部署,而原生的 Hadoop我们团队亦进行了部分源码修改才得以正常运行。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值