阿里云dataworks/maxcomputer和自建集群的对比

       云平台近几年在飞速发展,有些公司也会把自己的在线业务和离线数据业务迁移到阿里云上,一方面节省研发成本,另一方面服务更加稳定,下面我以自己粗浅的认识对比下两者。

     2021年7月又换了一家公司,又用回了原生的大数据组件,之前3年都用的阿里云,最近觉得很不适应,对两者的区别有了更多的感受,再回来总结下。

指标自建集群云平台
研发要求
自由度
研发配置数仓/集群搭建数仓
学习成本
工种配置数仓组+平台组+大数据产品组+分析组数据组
主要技术hive+hbase+spark+datax+storm+调度系统MR+类HIVE

两者使用对比:

          1、云平台功能完善,主要的数据同步、数据计算、调度任务等需求都能满足

          2、底层更加稳定,相较自建集群几乎不会宕机

          3、从同步生产库数据->仓库建模处理->算法实现->生产库都能在一个可视化的工作流完成,自建集群可能需要用多个开源软件

          4、云平台可视化点击操作较多较容易上手,自建集群可能还要学习一段时间

          5、云平台付费就能用,自建集群建设需要时间

          6、云平台有问题找客服解决沟通麻烦,自建集群直接问平台的同事,更容易沟通

          7、云平台对大数据从业者来说能学到的东西较少,自建集群能学到较多的底层东西

写在2021年8月:

之前写的对比大部分都太粗浅,最近有了比较多的感受,细致性的说下,仅就我司的自建水平来对比:

1、计算性能和稳定性,之前用阿里云虽然只有odps一个引擎,但是真的是优化的好,比着自建的spark个人感受还是快的,比着社区的hive不知道要快多少,且稳定,比如修复分区,分区表加字段等细节性问题;还有个问题是计算的不稳定导致了数仓夜里需要值班,但是做的无非就是点一下重跑

2、调度,我们自建的不能循环依赖,天和小时调度不耦合,调度任务不能补数据,有些感觉是基本功能的在这边长期不能迭代,我觉得是二次开发能力不足,这个是有门槛的

3、文档的丰富程度,自建的文档写的真的是随意,且真的是口耳相传,刚入职各种不适应

4、实时计算平台,开发周期长,长周期不能迭代,没有稳定版本使用

       随着公司大数据体系的完善,整体使用从0-1逐渐完善,云平台可能处于0.7分的水平,对比的时期很重要。但是也要看公司的研发能力,有的公司可能几年都到不了0.7分的水平。建议自建集群开发者也关注下云平台,取长补短。

     我是站在数仓的角度来说明问题,正所谓屁股决定脑袋,比如云平台花钱和自建比较,在多大规模肯定差距不一样。最近,目前这个公司也在上华为云了,毕竟也是个上市公司。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值