基于odps构建数据分析服务

功能组件

odps

基本概念

项目空间 表 分区 数据类型 资源(Resource)

使用ODPS的 自定义函数(UDF) 或 MapReduce 功能需要依 赖资源来完成

  1. ODPS SQL UDF: 用户在编写UDF后,需要将编译好的jar包以资源的形式上传到ODPS。运行这个 UDF时,ODPS会自动下载这个jar包,获取用户代码,运行UDF,无需用户干预。 上传jar包的过程 就是在ODPS上创建资源的过程,这个jar包是ODPS资源的一种。
  2. ODPS MapReduce: 用户编写MapReduce程序后,将编译好的jar包作为一种资源上传到ODPS。运 行MapReduce作业时,MapReduce框架会自动下载这个jar资源, 获取用户代码。用户同样可以将 文本文件以及ODPS中的表作为不同类型的资源上传到ODPS。用户可以在UDF及MapReduce的运行 过程中读取、使用这些资源。 ODPS提供了读取、使用资源的接口。详细示例请查看 资源使用示例 及 UDTF使用说明 中的描述。需要注意的是,ODPS的 自定义函数(UDF) 或 MapReduce 对资源的 读取有一定的限制,请参考应用限制 。

ODPS资源的类型包括:

  • File类型;
  • Table类型:ODPS中的表;
  • Jar类型:编译好的Java Jar包;
  • Archive类型:通过资源名称中的后缀识别压缩类型,支持的压缩文件类型包括 :.zip/.tgz/.tar.gz/.tar/jar;
  • Py类型:Python脚本,供Python UDF使用;

函数

ODPS为用户提供了SQL计算功能,用户可以在ODPS SQL中使用系统的 内建函数 完成一定的计算和计数功能 。 但当内建函数无法满足要求时,用户可以使用ODPS提供的Java编程接口开发自定义函数(User Defined Function,以下简称UDF)。

任务(Task) ODPS的基本计算单元。 SQL及MapReduce功能都是通过任务(Task)完成的。

任务实例

实例 会经历运行(Running)及结束(Terminated)两个阶段。 运行阶段的状态为Running(运行中),而结束阶段的状 态将会是Success(成功),Failed(失败)或Canceled(被取消)。

客户端安装

在官网下载odps客户端压缩包,解压,修改conf/odps_config.ini文件中的access_id,access_key,project_name,end_point参数,运行bin/下的可执行文件,进入命令行操作。

转载于:https://my.oschina.net/yangdongwei/blog/535207

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值