阿里云大数据计算服务MaxCompute使用教程

关于阿里云大数据计算服务MaxCompute的详细内容:

阿里云大数据计算服务MaxCompute使用教程

(MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。)

大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 为您提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决海量数据计算问题,有效降低企业成本,并保障数据安全。

同时,大数据开发套件和 MaxCompute 关系紧密,大数据开发套件为 MaxCompute 提供了一站式的数据同步,任务开发,数据工作流开发,数据管理和数据运维等功能,详情请参见大数据开发套件。

MaxCompute 主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。随着社会数据收集手段的不断丰富及完善,越来越多的行业数据被积累下来。数据规模已经增长到了传统软件行业无法承载的海量数据(百 GB、TB 乃至 PB)级别。

在分析海量数据场景下,由于单台服务器的处理能力限制,数据分析者通常采用分布式计算模式。但分布式的计算模型对数据分析人员提出了较高的要求,且不易维护。使用分布式模型,数据分析人员不仅需要了解业务需求,同时还需要熟悉底层计算模型。MaxCompute 的目的是为您提供一种便捷的分析处理海量数据的手段,您可以不必关心分布式计算细节,便可达到分析大数据的目的。

MaxCompute 已经在阿里巴巴集团内部得到大规模应用,例如:大型互联网企业的数据仓库和 BI 分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。

产品优势

大规模计算存储:MaxCompute 适用于 100GB 以上规模的存储及计算需求,最大可达 EB 级别。

多种计算模型:MaxCompute 支持 SQL、MapReduce、Graph 等计算类型及 MPI 迭代类算法。

强数据安全:MaxCompute 已稳定支撑阿里全部离线分析业务7年以上,提供多层沙箱防护及监控。

低成本:与企业自建私有云相比,MaxCompute 的计算存储更高效,可以降低 20%-30% 的采购成本。

功能概述

数据通道

支持批量、历史数据通道

TUNNEL是 MaxCompute 为您提供的数据传输服务,提供高并发的离线数据上传下载服务。支持每天 TB/PB 级别的数据导入导出,特别适合于全量数据或历史数据的批量导入。Tunnel 提供 Java 编程接口供您使用,并且在 MaxCompute 的客户端工具中,有对应的命令实现本地文件与服务数据的互通。

实时、增量数据通道

针对实时数据上传的场景,MaxCompute 提供了延迟低、使用方便的 DataHub 服务,特别适用于增量数据的导入。Datahub 还支持多种数据传输插件,例如:Logstash、Flume、Fluentd、Sqoop 等,同时支持日志服务 Log Service 中的日志数据一键投递至 MaxCompute,进而使用大数据开发套件进行日志分析和挖掘。

计算及分析任务

MaxCompute 支持多种计算模型,详情如下:

SQL:MaxCompute 只能以表的形式存储数据,并对外提供了 SQL 查询功能。您可以将 MaxCompute 作为传统的数据库软件操作,但其却能处理 TB、PB 级别的海量数据。

注意:

MaxCompute SQL 不支持事务、索引及 Update/Delete 等操作。

MaxCompute 的 SQL 语法与 Oracle,MySQL 有一定差别,您无法将其他数据库中的 SQL 语句无缝迁移到 MaxCompute 上来。

在使用方式上,MaxCompute SQL 最快可以在分钟,乃至秒级别完成查询,无法在毫秒级别返回结果。

MaxCompute SQL 的优点是学习成本低,您不需要了解复杂的分布式计算概念。如果您具备数据库操作经验,便可快速熟悉 MaxCompute SQL 的使用。

UDF:即用户自定义函数。

MaxCompute 提供了很多 内建函数 来满足您的计算需求,同时您还可以通过创建自定义函数来满足不同的计算需求。

MapReduce:MaxCompute MapReduce 是 MaxCompute 提供的 Java MapReduce 编程模型,它虽与通用的 MapReduce 有所区别,但可以简化开发流程,更为高效。您若使用 MaxCompute MapReduce,需要对分布式计算概念有基本了解,并有相对应的编程经验。MaxCompute MapReduce 为您提供 Java 编程接口。

Graph:MaxCompute 提供的 Graph 功能是一套面向迭代的图计算处理框架。图计算作业使用图进行建模,图由点 (Vertex)和边(Edge)组成,点和边包含权值(Value)。通过迭代对图进行编辑、演化,最终求解出结果,典型应用:PageRank,单源最短距离算法 ,K-均值聚类算法 等。

SDK:SDK 是 MaxCompute 提供给开发者的工具包.

安全:MaxCompute 提供了功能强大的安全服务,为您的数据安全提供保护。

后续步骤:现在,您已经学习了 MaxCompute 的产品优势、功能特性等相关简介,您可以继续学习下一个教程。在该教程中您将快速了解如何使用 MaxCompute。

发展历程

更新时间:2017-09-08 08:19:17

从 2009 年 9 月阿里云成立,愿景就是做运算/分享数据的第一平台。2010 年 4 月,伴随阿里金融的贷款业务上线,ODPS 正式投入生产运行,2012 年建立统一数据平台,2013 年具备超大规模海量数据处理能力,2014~2015 年大数据平台开始日趋成熟,2016 年 MaxCompute 2.0 诞生,成立之初的愿景正在逐步实现。

关键性里程碑

2010.04 ODPS 正式投入生产运行。阿里金融的贷款业务上线稳定运行。

2013.05 ODPS 公测。

2013.07 ODPS 正式提供商业化服务,单集群规模 5K 台服务器多级群能力。

2016.09 ODPS 正式更名为 MaxCompute,并推出 MaxCompute 2.0,实现高性能,新功能,富生态。

更多精品课程点击:阿里云大学

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值