计算平台:
逻辑层又称作控制层,是MaxCompute的核心部分,实现用户空间和对象的管理、命令的解析与执行逻辑、数据对象的访问控制与授权等功能。在逻辑层有Worker. Scheduler和Executor三个角色:
1:Worker处理所有的RESTful请求,包括用户空间(Project)管理操作、资源(Resource)管理操作、作业管理等,对于SQL DML.
MR等需要启动MapReduce的作业,会生成MaxCompute Instance(类似于Hive中的Job) ,提交给Scheduler进一步处理。
2:Scheduler负责MaxCompute Instance的调度和拆解,并向计算层的计算集群询问资源占用情况以进行流控。
3:Executor负责MaxCompute Instance的执行,向计算层的计算集群提交真正的计算任务。
计算层就是飞天内核(Apsara Core),运行在和控制层相互独立的计算集群上,它包括Pangu (分布式文件系统), Fuxi (资源调度系统)Nuwa/ZK (Namespace服务), Shennong (监控模块)等.MaxCompute中的元数据存储在阿里云计算的另一个开放服务OTS (Open TableService,开放结构化数据服务)中,元数据内容主要包括用户空间元数据、 Table/Partition Schema, ACL, Job元数据、安全体系等.
功能组件非常强大
MaxCompute SQL:标准SQL的语法,提供各类操作和函数来处理数据。
MaxCompute MapReduce:提供Java MapReduce编程模型,通过接口编写MR程序处理MaxCompfte中的数据。还提供基于MapReduce的扩展模型MR2,在该模型下,一个Map函数后可以接入连续多个Reduce函数,执行效率比普通的MapReduce模型高。
MaxCompute Graph:面向迭代的图计算处理框架,典型应用有PageRank,单源最短距离算法、K-均值聚类算法。
Spark:使用Spark接口编程处理存储在MaxCompute中的数据RMaxCompute:使用R处理MaxCompute中的数据。
Volume: MaxCompute以Volume的形式支持文件,管理非二维表数据。
MaxCompute 的计算层的底层不是的mr或者spark吗,分布式存储系统(Pangu)的底层是否还是HDFS