大数据-玩转数据-阿里系
文章平均质量分 80
人猿宇宙
大数据\项目管理
展开
-
大数据-玩转数据-阿里云EDAS(企业级分布式应用服务)
在阿里云容器服务 Kubernetes 集群中,原生的 Volume 对象所对应的物理储存为非持久化的,它的生命周期与 Kubernetes Pod 一致,是一个暂态的储存对象。EDAS 支持通过镜像部署容器服务 Kubernetes 版集群应用,您需准备好镜像,在容器服务 Kubernetes 版控制台中创建容器服务 Kubernetes 版集群,并将该集群导入到 EDAS 控制台,然后创建应用并完成部署。应用创建可能需要几分钟,创建过程中,可以通过应用变更单跟踪创建的过程。如 args:[“-c”;原创 2022-12-16 12:43:10 · 1295 阅读 · 0 评论 -
大数据-玩转数据-Flink+Hologres构建实时数仓
随着大数据的迅猛发展,企业越来越重视数据的价值,这就意味着需要数据尽快到达企业分析决策人员,以最大化发挥数据价值。企业最常见的做法就是通过构建实时数仓来满足对数据的快速探索。在业务建设过程中,实时数仓需要支持数据实时写入与更新、业务敏捷快速响应、数据自助分析、运维操作便捷、云原生弹性扩缩容等一系列需求,而这就依赖一个强大的实时数仓解决方案。阿里云实时计算 Flink 版(以下简称“阿里云 Flink”)提供全增量一体化数据同步技术、强大的流式 ETL 等能力,支持海量数据实时入仓入湖。阿里云 Hologre转载 2022-09-29 16:55:46 · 2724 阅读 · 0 评论 -
大数据-玩转数据-Flink Python作业开发
这里我们用了刚才提到的 named function 的方式定义一个 ip_to_province() 的UDF,输入是 ip 地址,输出是地区名字字符串。我们这里描述了输入类型是一个字符串,输出类型也是一个字符串。当然这里面的查询服务仅供演示,大家在自己的生产环境要替换为可靠的地域查询服务。format:{'pro': '河北省','city': '石家庄市','region': '灵寿县','addr': '河北省石家庄市灵寿县 电信','err': ''}原创 2022-09-21 15:48:29 · 4413 阅读 · 0 评论 -
大数据-玩转数据-MaxCompute SQL中的日期函数
假设start=2018-06-04193323.234,end=2018-06-04193323.250,含毫秒的日期不属于标准DATETIME式样,不能直接隐式转换,此处需进行显示转换。假设当前时间为2020-11-17163144,返回2020-11-16163144。将STRING类型常量显式转换为DATETIME类型,返回2005-02-28000000。假设当前时间为2020-11-17163144,返回2020-11-16。...原创 2022-07-15 12:10:04 · 2521 阅读 · 0 评论 -
大数据-玩转数据-MaxCompute 数学函数
函数 功能二、注意事项升级到MaxCompute 2.0后,产品扩展了部分函数。如果您用到的函数涉及新数据类型:TINYINT、SMALLINT、INT、FLOAT、VARCHAR、TIMESTAMP或BINARY在使用扩展函数时,需要执行如下语句开启新数据类型开关:Session级别:如果使用新数据类型,您需要在SQL语句前加上语句set odps.sql.type.system.odps2=true;,并与SQL语句一起提交执行。Project级别:Project Owner可根据需要对P原创 2022-07-01 09:09:31 · 610 阅读 · 0 评论 -
大数据-玩转数据-MaxCompute窗口函数
在SELECT语句中加入窗口函数,计算窗口函数的结果时,数据会按照窗口定义中的partition by和order by语句进行分区和排序。如果没有partition by语句,则仅有一个分区,包含全部数据。如果没有order by语句,则分区内的数据会按照任意顺序排布,最终生成一个确定的数据流。之后对于每一行数据(当前行),会按照窗口定义中的frame_clause从数据流中截取一段数据,构成当前行的窗口。窗口函数会根据窗口中包含的数据,计算得到窗口函数针对当前行对应的输出结果。计算行号,从1开始递增二原创 2022-06-30 06:55:18 · 1478 阅读 · 0 评论 -
大数据-玩转数据-MaxCompute 聚合函数
聚合(Aggregate)函数的输入与输出是多对一的关系,即将多条输入记录聚合成一条输出值,可以与MaxCompute SQL中的group by语句配合使用。三、注意事项升级到MaxCompute 2.0后,产品扩展了部分函数。如果您用到的函数涉及新数据类型(TINYINT、SMALLINT、INT、FLOAT、VARCHAR、TIMESTAMP或BINARY),在使用扩展函数时,需要执行如下语句开启新数据类型开关:Session级别:如果使用新数据类型,您需要在SQL语句前加上语句set odps原创 2022-06-29 07:13:09 · 1762 阅读 · 0 评论 -
大数据-玩转数据-MaxCompute 字符串函数
MaxCompute SQL中使用字符串函数对指定字符串进行灵活处理。三、注意事项升级到MaxCompute 2.0后,产品扩展了部分函数。如果您用到的函数涉及新数据类型(TINYINT、SMALLINT、INT、FLOAT、VARCHAR、TIMESTAMP或BINARY),在使用扩展函数时,需要执行如下语句开启新数据类型开关:Session级别:如果使用新数据类型,您需要在SQL语句前加上语句set odps.sql.type.system.odps2=true;,并与SQL语句一起提交执行。P原创 2022-06-28 07:08:53 · 2267 阅读 · 0 评论 -
大数据-玩转数据-DataWorks调度参数概述
调度参数是DataWorks任务调度时使用的参数,调度参数会根据任务调度的业务日期、定时时间及参数的取值格式自动替换为具体的值,实现在任务调度时间内参数的动态替换。DataWorks支持的系统内置变量无需手动赋值,参数可以在代码中直接引用。如下表所示:${bdp.system.bizdate} 或 $bizdate固定格式:yyyymmdd该参数的应用较为广泛,日常调度中默认任务预期运行时间的前一天为业务日期。${bdp.system.cyctime} 或 $cyctime固定格式:yyyymmddh原创 2022-06-27 21:52:11 · 3455 阅读 · 0 评论 -
大数据-玩转数据-阿里DataWorks开发治理平台
Dataworks,在阿里集团内部为大家所熟知的部分是D2,DataWorks(数据工场)具备全栈数据研发能力(数据集成与开发、 生产运维调度、离线与实时分析、数据质量治理与资产管理、安全防护、数据共享与服务、机器学习、数据应用搭建)的大数据平台;Dataphin,通过输出阿里数据中台实战沉淀的大数据建设体系OneData+OneID +OneService(产品+技术+方法论),一站式提供集数据引入、规范定义、数据建模、数据研发、数据萃取的全链路智能数据构建及管理服务。UDF分类UDFUDTF。原创 2022-05-29 13:17:40 · 4508 阅读 · 0 评论 -
大数据-玩转数据-阿里Dataphin的规范建模
一、说明数据仓库的规范建模,可以用脚本,也可以用工具,阿里云的数仓规范建模进行了自身的工具化管理,致力于提供体系化和系统化的数据建模的功能。建模应基于明确的业务需求,通过顶层设计,规范定义数据的标准及计算接口。、阿里云的数据仓库建模过程包含:维度、业务过程、原子指标、衍生原子指标、业务限定、派生指标、事实逻辑表、维度逻辑表、汇总逻辑表、建模引擎几个部分。二、规范定义-维度维度是由独立不重叠的数据元素组成的数据集,构成可统计的对象,比如时间维度年、月、日,空间维度省、市、县等等,让人从多角度、多方位原创 2022-05-03 22:48:16 · 2451 阅读 · 0 评论 -
大数据-玩转数据-阿里Flink Python
一、说明Flink全托管开发控制台提供了Flink Python作业开发、提交、暂停和停止、依赖管理等功能。二、作业开发下面介绍Python API作业开发的背景信息、使用限制、开发方法和Connector使用等。1、背景信息和使用限制阿里的托管平台已经安装的Python的软件包可根据操作手册查询。由于Flink全托管产品受部署环境、网络环境等因素的影响,所以开发Python作业,需要注意以下限制:Flink全托管集群已预装了Python 3.7.9Python环境中已预装了Pandas、原创 2022-05-02 15:43:54 · 2367 阅读 · 0 评论 -
大数据-玩转数据-阿里Flink SQL
一、说明阿里的实时计算Flink全托管开发控制台,是阿里云基于Apache Flink构建的企业级、高性能实时大数据处理系统。其开发使用主要为Flink SQL开发、Flink Datastream开发、Flink Python开发方向,这里主要就Flink SQL开发做一归纳。Flink SQL开发提供了作业开发、作业启动、作业调试、管理自定义函数、配置Hive Metastore和管理自定义Connectors功能几个方面。二、开发模板Flink全托管提供了21种代码模板,每种代码模板都供了具体原创 2022-05-01 20:49:43 · 909 阅读 · 0 评论 -
大数据-玩转数据-Maxcompute DML
一、插入或覆写数据(INSERT INTO | INSERT OVERWRITE)1、数据插入使用说明MaxCompute支持通过insert into或insert overwrite操作向目标表或静态分区中插入、更新数据。本文中的命令您可以在如下工具平台执行:MaxCompute客户端MaxCompute控制台(查询编辑器)DataWorks控制台MaxCompute Studio前提条件执行insert into和insert overwrite操作前需要具备目标表的修改权限(A原创 2022-04-27 22:13:44 · 3704 阅读 · 1 评论 -
大数据-玩转数据-Maxcompute DDL
一、说明Maxcompute DDL语句的介绍。二、表操作表是MaxCompute的数据存储单元。数据仓库的开发、分析及运维都需要对表数据进行处理。本文为您详细介绍表操作相关命令。表操作命令如下。类型功能角色操作入口创建表创建非分区表、分区表、外部表或聚簇表具备项目创建表权限(CreateTable)的用户本文中的命令您可以在如下工具平台执行:MaxCompute客户端\MaxCompute控制台(查询编辑器)\DataWorks控制台\MaxCompute Stud原创 2022-04-20 22:34:45 · 2343 阅读 · 0 评论 -
大数据-玩转数据-MaxCompute 脚本模式SQL
一、说明数据中台为阿里巴巴开启了又一个空间,智能数据构建与管理 Dataphin 集成了多种开发语言,比如:MaxCompute SQL、MaxCompute MR、MaxCompute Spark、SHELL、PYTHON 等。二、脚本模式SQLMaxCompute当前的SQL引擎支持脚本模式SQL(Script Mode SQL)。在脚本模式下编译脚本时,一个多语句的SQL脚本文件将被作为一个整体进行编译,无需对单个语句进行编译。在提交运行时,SQL脚本文件会被整体提交,并生成一个执行计划,保证原创 2022-04-10 22:13:23 · 2382 阅读 · 0 评论 -
大数据-玩转数据-Dataphin调度节点参数设置
一、节点参数配置项默认参数值:{yyyyMMdd}为业务日期,即当前日期的前一天T-1,[yyyyMMdd]为执行日期,即当前日期T默认参数: bizdate,nodeid,taskidnodeid是节点idtaskid是节点生成实例时候的实例idbizdate默认为当前日期的前一天,即参数默认参数值赋值为{yyyyMMdd},例:如果今天是2018年1月10日,bizdate=20180109生产业务板块名为当前系统所有生产业务板块名,开发环境执行时替换为开发板原创 2022-04-10 10:06:00 · 2376 阅读 · 0 评论 -
大数据-玩转数据-阿里云获取AccessKey步骤
一、获取AccessKey入口在调用阿里云的API的时候,你需要AccessKey完成身份验证。登录阿里云,在首页->访问控制->获取AccessKey二、创建子账号阿里云提供主账号用户创建AccessKey,子账号(RAM)用户创建AccessKey,为安全起见,阿里云强烈建议建立子账户。三、利用RAM获取AccessKey四、添加RAM用户权限五、完成AccessKey获取完成获取,进行查询管理...原创 2022-04-05 18:06:18 · 2445 阅读 · 0 评论 -
大数据-玩转数据-阿里Dataphin全接触
一、什么是DataphinDataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出,一站式提供数据采、建、管、用全生命周期的大数据能力,以助力企业显著提升数据治理水平,构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin提供多种计算平台支持及可拓展的开放能力,以适应不同行业客户的平台技术架构和特定诉求。二、Dataphin框架三、平台管理Dataphin的基础功能,包含账号管理、计算设置和智能引擎。超级管理员需要通过管理中心来进行成员管理和计算设置,同时您也可原创 2022-04-04 23:01:10 · 9866 阅读 · 0 评论