据阿里云EMR快速搭建数据平台

EMR完整技术堆栈测试选型:

emr选用主流lambda架构,兼顾hadoop,spark两大引擎,并做了跨引擎整合,从分步式计算,调度等多方面做了高度统一化和抽象化,上层应用和开发几乎是透明无感知的(当然这是对于开发人员来说的,架构和资深研发看见小心触电字样,依然还是要打开保险,抻手进去的 ^^

选用原因:

1.部署这么一套完备的基础平台还是很费劲的,自己搭也只会选其中的几块做整合,未来有需求才会增加,如果大的技术堆栈在未来发展依然主流,那一步到位必然省事,但现在spark大有以一盖全的可能,但市面人力不一定都能找到,综合考虑全选有备无患,反正也不多收费,空间留着也浪费

2.平台运维,故障解决,技术支持,扩容,灾备等云的人力财力智力优势不多说
3.单说引擎他们还是做了些安全稳定性优化和性能增强的,还有和自家的osssls,或是采集MaxcCompute产品对接提供原生支持和更优化方案

缺点与遇到的坑:

1.Emr并不是maxCompute(官网大多介绍的后者,像是个中间实验版本(目前只收集群资源的费用,而emr本身免费),有的Emr版本并不成熟,如我们选最新版3.0.0,他选择的spark2.0版本(不支持版本定制、切换、升迁等),流处理竟有bug未解决,不支持就发布出来了

2.集群网络环境一会精典一会vpc,还有各种对应endpoint的访问方式,让个不懂运维或网络知识的人操作还是有点头疼

3.切换回2.4.1spark1.6.3sql速度据说比2.0十倍不说,原3.0.0交互环境可以支持阿里自家的oss的,现2.4.1版本竟不支持,用Zeppelin自己加jar包才可以

4.Zeppelin的整合并未像其它产品一样积成的如何好,像个开源包放那而于,如oss,sls,还有rds的连接驱动等要手功配置才可以使用;加依赖也有问题不能识别到spark进程classpath,要改zeppelin-env submit-option项目中加—jar参数,还要手动集群环境重启zeppelin才能支持;sparkconf配置改动可能会使zeppelin不可用;其它的如hbase群里反映还是有很多问题,还没继续测试,总之兼容性稳定性改进空间还有很大

转载于:https://my.oschina.net/hblt147/blog/871014

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值