阿里云ODPS(现名MaxCompute,原名ODPS)介绍

什么是ODPS(一)

阿里云开放数据处理服务(Open Data Processing Service,简称ODPS) 是构建在飞天系统上的大规模分布式数据处理服务。

ODPS以REST API的形式,支持用户提交类SQL的查询语言,对海量数据进行处理。在API之上,还提供SDK开发包和命令行工具,Aliyun.com上还有一个Web演示界面。

什么是ODPS(二)

与传统数据仓库工具相比ODPS有以下优势:
处理能力强大:后面提到的“应用案例一”和“应用案例二”和“应用案例五”的客户都曾经购买使用过传统数据仓库技术解决方案,但是都无法适应剧烈膨胀的数据规模。
成本低廉,伸缩灵活:由于云计算的业务特点,用户可以根据自己的实际需求租用相应的计算能力。同时节省昂贵的运营费用。后面提到的“应用案例四” 和“应用案例五”的 客户的支出,是与其网站业务量,以及产品线复杂程度一起增长的。

什么是ODPS(三)

与HIVE、Big Query相比ODPS有以下特点:
企业级特征:定制化ETL、窗口函数、存储过程、作业调度、M\R、UDF等。
项目支撑:项目空间和帐号授权机制(Project/ User/Role/ACL)。Quota和Priority的管理。
Web Service: RESTful API、多语言SDK、事件订阅。

ODPS与RDS、OTS的区别(一)

阿里云关系型数据库服务(Relational Database Service,简称RDS)是构建在弹性计算系统上的商用关系型数据库服务。
RDS适合较小数据规模的常规OLTP(online transactional processing)应用。如果用户的需求是把现有关系数据库服务(例如MySQL和SQL Server)迁移到云平台上, 主要重视兼容性,可以选择RDS。

ODPS与RDS、OTS的区别(二)

阿里云开放结构化数据服务(Open Table Service,简称OTS)是构建在飞天系统之上的海量结构化和半结构化数据存储与实时查询的服务。
OTS服务的特点是大规模、低延时、强一致,其适用场景是对数据规模和实时性要求高的应用。

ODPS与RDS、OTS的区别(三)

ODPS重点面向数据量大(TB级别)且实时性要求不高的OLAP(On-Line Analytical Processing),适用于构建数据仓库、海量数据统计、数据挖掘、数据商业智能等应 用。
OTS和ODPS可以配合使用,前者支撑大规模并发的日常访问(例如铁路售票前台系统),然后每隔24小时就把交易数据推入ODPS支撑的数据仓库,利用后者进行进一步 的业务分析。

在线计算与离线计算

在线计算(Online)
数据稀疏,一般情况半结构化
存取少量数据(单条或一个range)
响应实时,低延迟
每天响应请求次数达数千万
7*24小时服务
离线计算(Offline)
数据稠密,对数据结构化无要求
一经存储,不会改变
批量作业处理,几十分钟/作业,甚至数天
每天扫描数据可达数千亿条

在线计算的技术特点

注重随机存取性能
注重取值区间(Range) 的性能
文件块(Block)容量较小
索引(Index)较多,主键(Key)不易太大
需要一个主节点控制
各节点需要有守护进程
各节点内存占用较多


离线计算的技术特点

注重顺序存取性能
尽量减少不必扫描的数据,减少I/O
文件块(Block)一般较大
可以不用或少量索引(Index)
需要作业调度
除了像join这种操作,否则内存占用量不高

系统模型

帐号(Account)
项目(Project )
表( Table )
查询( Query )和查询任务(Query Task)
导入导出任务(Import/ Export Task )
MapReduce任务(M/R Task)
UDF任务(UDF Task)
作业(Job)和作业实例(Job Instance)

实例:用ODPS干什么?

网聚宝得到御泥坊的授权,通过淘宝API获取其客户、商品和订单的数据。
客户的商务分析人员登录网聚宝的平台,进行数据查询分析。

网站运营中一个简单的例子:
筛选出最近六个月累计购买三次或以上的客户,且该客户购买过商品A,但是尚未购买过商品B或C,同时客户留的联系方式是QQ邮箱。

比较大的淘宝卖家,每月有上百万条数据记录。
普通的关系型数据库(例如MYSQL),其性能无法支撑前面这个运营需求例子里的复杂条件的联合查询。

OTS不支持复杂逻辑多表联查。

也就是说,RDS、OTS均无法满足需求。而ODPS很适合这个场景。


回过头来总结业务特点

ODPS是开发数据仓库的平台工具。
数据仓库的传统市场是电信和银行,传统解决方案很昂贵。
互联网运营团队越来越依赖于大数据分析工具。
云计算是技术创新也是业务创新。
对于网络行业,业务数据天然在网上,导入ODPS更容易。
对于传统行业,前期可能需要VM、RDS和OTS等兄弟产品开路,逐步引导用户使用ODPS。







  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
阿里云大数据计算服务MaxCompute(原ODPS)是一种云端大数据处理和分析服务,它提供了一个高效、安全和稳定的SQL引擎,用于处理和分析大规模数据。 MaxCompute的SQL使用指南如下: 1. 创建表:使用CREATE TABLE语句创建表,指定表的名称、列名和数据类型。 2. 插入数据:使用INSERT INTO语句将数据插入到表中,可以一次插入多行数据。 3. 查询数据:使用SELECT语句从表中查询数据,可以使用条件语句、排序和聚合函数进行筛选和处理。 4. 更新数据:使用UPDATE语句更新表中的数据,可以根据条件对指定的行进行更新。 5. 删除数据:使用DELETE语句删除表中的数据,可以根据条件删除指定的行。 6. 表连接:使用JOIN语句将多个表连接在一起,根据指定的关联条件进行数据的查询和分析。 7. 数据转换:通过使用转换函数,将数据在不同的数据类型之间进行转换,如字符串转换为日期、数字转换为字符串等。 8. 数据分组:使用GROUP BY语句将数据按照指定的列进行分组,然后对每个分组进行聚合操作,如计算平均值、求和等。 9. 数据排序:通过使用ORDER BY语句对查询结果按照指定的列进行排序,可以按照升序或降序排列。 10. 数据统计:使用聚合函数,如COUNT、SUM、AVG等对查询结果进行统计分析,可以获取总数、求和、平均值等数据。 11. 数据分区:使用PARTITION BY子句将表数据划分成多个分区,可以加快查询和分析的速度。 总之,MaxCompute提供了强大的SQL功能,可以方便地对大规模数据进行处理、分析和洞察,帮助用户更好地进行数据驱动的决策和业务创新。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值