功能组件
基本概念
项目空间 表 分区 数据类型 资源(Resource)
使用ODPS的 自定义函数(UDF) 或 MapReduce 功能需要依 赖资源来完成
- ODPS SQL UDF: 用户在编写UDF后,需要将编译好的jar包以资源的形式上传到ODPS。运行这个 UDF时,ODPS会自动下载这个jar包,获取用户代码,运行UDF,无需用户干预。 上传jar包的过程 就是在ODPS上创建资源的过程,这个jar包是ODPS资源的一种。
- ODPS MapReduce: 用户编写MapReduce程序后,将编译好的jar包作为一种资源上传到ODPS。运 行MapReduce作业时,MapReduce框架会自动下载这个jar资源, 获取用户代码。用户同样可以将 文本文件以及ODPS中的表作为不同类型的资源上传到ODPS。用户可以在UDF及MapReduce的运行 过程中读取、使用这些资源。 ODPS提供了读取、使用资源的接口。详细示例请查看 资源使用示例 及 UDTF使用说明 中的描述。需要注意的是,ODPS的 自定义函数(UDF) 或 MapReduce 对资源的 读取有一定的限制,请参考应用限制 。
ODPS资源的类型包括:
- File类型;
- Table类型:ODPS中的表;
- Jar类型:编译好的Java Jar包;
- Archive类型:通过资源名称中的后缀识别压缩类型,支持的压缩文件类型包括 :.zip/.tgz/.tar.gz/.tar/jar;
- Py类型:Python脚本,供Python UDF使用;
函数
ODPS为用户提供了SQL计算功能,用户可以在ODPS SQL中使用系统的 内建函数 完成一定的计算和计数功能 。 但当内建函数无法满足要求时,用户可以使用ODPS提供的Java编程接口开发自定义函数(User Defined Function,以下简称UDF)。
任务(Task) ODPS的基本计算单元。 SQL及MapReduce功能都是通过任务(Task)完成的。
任务实例
实例 会经历运行(Running)及结束(Terminated)两个阶段。 运行阶段的状态为Running(运行中),而结束阶段的状 态将会是Success(成功),Failed(失败)或Canceled(被取消)。
客户端安装
在官网下载odps客户端压缩包,解压,修改conf/odps_config.ini文件中的access_id,access_key,project_name,end_point参数,运行bin/下的可执行文件,进入命令行操作。