基于阿里云数加构建企业级数据分析平台
数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190504225454488.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0phdmFEZXN0aW55,size_16,color_FFFFFF,t_70)数据分析平台的组成部分
- 分析需求
- 确认数据源
- ETL处理
- 数据整合/汇总
- 数据建模
- 数据分析/展现
ETL:数据抽取转换加载过程
数据仓库:数据存储,计算,建模
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190504230341205.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0phdmFEZXN0aW55,size_16,color_FFFFFF,t_70)数据分析平台对应的场景
数加
数加是阿里云大数据的品牌名,旗下包含一些列的大数据产品及服务,是上千万工程师实战检验过的一站式大数据平台
基础平台
计算引擎:离线计算MaxCompute(原ODPS),在线计算分析型数据库,流式计算
加工层:数据开发DataIDE,机器学习
MaxCompute
简介
MaxCompute是阿里云自主研发,提供针对PB,TB级别的数据、实时性不高的分布式处理能力
特点
- 海量运算
- 服务“开箱即用”
- 数据存储安全可靠:三重备份、读写鉴权、应用沙箱、系统沙箱等多层次安全机制
- 多用户协作:保障数据安全的前提下最大化工作效率
- 按量付费
DataIDE
DataIDE是(统一开发环境)基于MaxCompute提供海量数据的离线加工分析,展现,数据挖掘能力的一站式平台,运维工具
RDS数据导入云端
- 选择来源
- 选择目标
- 字段映射
- 通道控制(速率,并发数)
- 周期性调度
- 调度配置(基本属性,调度属性(最小分钟),依赖属性(数据依赖任务),跨周期调度)
${bdp.system.bizdate}
格式为yyyymmdd,日常调度实例定时时间的前一天(年月日)。节点每天自动调度实例定时时间年月日减1天
正常调度时,比如:任务定时在14号凌晨执行,那么${bdp.system.bizdate}替换的结果是13号
测试,补数据时,比如:业务日期选择为12号,那么${bdp.system.bizdate}替换的结果是12号
${bdp.system.cyctime}
格式为yyyymmddhh24miss,日常调度实例定时时间(年月日时分秒)。yyyy表示4位数年份,mm表示2位数月份,dd表示2位数天,hh24表示24小时制的时,mi表示2位数分钟,ss表示2位数秒
正常调度时,比如:任务定时在14号凌晨1点整执行,那么${bdp.system.cyctime}替换的结果是 当天yyyymm140100
测试,补数据时,比如:业务日期选择为12号(任务调度时间配置为每天凌晨1点整执行),那么${bdp.system.cyctime}替换的结果是 所选业务日期的yyyymm130100