大数据分析与应用(中级) 大数据分析平台
目录
1.Quick BI概述(Business Intelligence)
1.阿里云大数据平台产品和开源大数据生态的对应关系
功能 | 开源大数据体系 | 阿里云大数据体系 |
数据仓库 | HBase、Hive | Maxcompute |
分布式计算 | MapReduce | MaxCompute |
数据接入、同步 | Logstash、Sqoop | 阿里云数据集成、DataHub |
流式、实时计算 | Storm、Spark Streaming | 阿里云实时计算 |
图算法 | GraphX | Maxcompute Graph |
机器学习 | Mahout、Spark MLLib | PAI |
任务调度 | Oozie | Data Works |
数据分析及可视化 | Kibana、Grafana | Quick BI、DataV |
2.阿里云大数据计算服务MaxCompute
1.阿里云大数据计算服务MaxCompute产品的功能
- 支持多种数据类型
- 拥有强大的编译器
- 拥有较强的兼容性
- 提供丰富的拓展能力
2. MaxCompute基本操作
- 准备账号开通服务
- 创建项目空间
- 创建子账号并赋权
- 安装配置访问工具
- MaxCompute的客户端
- 创建表/数据操作——MaxCompute SQL
-
3.MaxCompute SQL 使用示例
--1.创建表 CREATE TABLE table_name(字段1类型 描述,字段2类型 描述...); --2.创建内部表,并指定分区字段 CREATE TABLE table_name(字段1类型 描述,字段2类型 描述...) partitioned by (分区字段1类型 描述...); --3.添加列 ALTER TABLE table_name ADD columns (列表 类型 描述,列名 类型 描述...) --4.更改表名 ALTER TABLE table_name1 RENAME TO table_name2; --5.删除表 DROP TABLE table_name IF exists table_name; --6.查询表 SELECT 字段1,字段2,...FROM table_name;
3.一站式大数据平台DataWorks
1.DataWorks 概述
- DataWorks 是基于MaxCompute计算引擎的一站式开发工场,帮助企业快速完成数据集成、开发、治理、质量、安全等全套数据研发工作。
- (1)拥有全面托管的调度
- (2)支持数据转化与同步
- (3)可视化开发
- (4)全流程监控
2.DataWorks 基本操作
- 数据产生:业务系统产生的结构化数据,通常存储在MySql、Oracle、RDS等数据库中。
- 数据收集与存储:利用MaxCompute 的海量数据存储与处理能力来分析业务数据,需要通过预设的调度过程将数据收集称和同步到MaxCompute中。
- 数据分析与处理:对MaxCompute上的数据进行加工(MaxCompute SQL、MaxCompute MR)、分析与挖掘等处理,从数据中发掘出高质量的有价值信息。
- 数据提取:将分析与处理后的结果数据,同步或导出至其他(业务)系统,为其他应用提供信息数据内容。
- 数据展现和分享:通过报表、可视化图表(如数字地图)等多种动、静态可交互图标来展现与分享大数据分析结果。
- 组织管理员(主账号)
- 项目管理员(子账号)
- 数据开发
- 部署与运维
4.BI 平台Quick BI
1.Quick BI概述(Business Intelligence)
- Quick BI阿里云旗下产品,是一个基于云计算并致力于大数据高效分析与展现的轻量级自助商业智能工具服务平台。Quick BI通过对数据源的连接和数据集的创建。对数据进行及时的分析与查询,通过电子表格或仪表板功能,以拖拽的方式进行数据的可视化呈现。
- Quick BI 具体功能特性:
- 极速建模
- 数据分析能力
- 丰富的可视化
- 多用户协作
- 多维数据分析
- 灵活的报表集成方案
2.Quick BI基本操作
- 新建数据源
- 创建数据集
- 制作工作表、电子表格和仪表板
- 搭建数据门户
5.数据大屏Data V
-
具体功能
- 丰富的场景模板
- 多数据类型分析
- 图形化搭建工具
- 多分辨率适配发布
2.Data V 基本操作
- 开通服务,创建应用
- 创建模板或选择模板
- 选配或修改组建
- 配置组建属性、数据源
- 预览发布
6.机器学习平台PAI
1.机器学习平台PAI概述
阿里云机器学习平台PAI ( Platform of Artificial Intelligence ):是构建在阿里云MaxCompute计算平台之上,集数据处理、建模、离线预测、 在线预测为一体的机器学习平台。为算法开发者提供了 丰富的MPI、PS、BSP等编程框架和数据存储接口,同时提供了基于WEB的可视化控制台,降低了使用门槛。
- 可视化建模和分布式训练
- 交互式AI研发
- 自动化建模
- 在线预测服务
2.机器学习平台PAI基本操作
- 开通服务,选择所属项目空间
- 创建模板或选择模板
- 配置数据源
- 数据建模
- 部署应用
7.构建阿里云大数据平台的数据仓库
- 数据仓库层设计
- 数据仓库物理建模
- 数据仓库开发实现
- DWS\DWB数据处理流程
- 仓库应用层ST处理流程