注:MaxCompute,原名ODPS,出于使用习惯考虑,以下用ODPS代指MaxCompute,即阿里巴巴大数据计算服务。
一、为什么选择ODPS?
1.选择Apache Hadoop?
以Hadoop为代表的开源组件,搭建及维护的成本较高,遇见各类配置、网络、参数问题较多,升级时存在不兼容风险,需要单独搭建额外组件(如HBase),Namenode无法得安全性保障,需要较长时间来熟悉和维护。
2.选择Cloudera CDH?
以Cloudera为代表的集成组件,在使用的便捷性上提升了许多,版本及配置简化了很多,但配置参数、任务优化、日常运维仍需比较专业的人员来操作,一些配套平台(如任务调度)仍需自行搭建,属于软件层面上的优化提升,没有深入到硬件层面。
3选择ODPS?
ODPS最大的优势,就是通过阿里巴巴内部复杂多元的业务场景,将大数据计算的整个流程做了完整的梳理,各个环节的组件进行了统一梳理,实现了从日志采集、数据计算、数据展示到数据分析的全过程集成。在知晓了计算流程的前提下,可以针对硬件做专门的定制,因而实现了“减费增效”,即降低采购成本(如服务器数量)、人力成本(如运维)、时间成本(扩展方便)的同时,提升了计算规模(TB至EB级别)。
二、开发人员如何认识ODPS?
1.我要学原理?
如果要学习Hadoop系列的相关原理,单纯的学习ODPS其实意义不大,从技术学习的角