期末考试题库5

PAI平台

MaxCompute在大数据处理与分析中的功能

因MaxCompute强大的功能特性,数以万计的企业正基于MaxCompute进行数据计算与分析。MaxCompute在大数据处理与分析中的功能主要有以下三点:

弹性能力与扩展性

存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛;实时根据业务峰谷变化来分配资源。

集成 AI 能力

与机器学习平台PAI无缝集成,提供强大的机器学习处理能力;用户可使用熟悉的Spark-ML开展智能分析;使用Python机器学习三方库

支持流式采集和近实时分析

支持流式数据实时写入并在数据仓库中开展分析;高性能秒级弹性并发查询,满足近实时分析场景需求。

05

阿里云大数据处理与分析产品

云原生大数据计算服务MaxCompute

实时计算Flink

实时数仓Hologres

PAI平台

Flink在大数据处理与分析中的功能

Flink是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。Flink在大数据处理与分析中的功能主要有以下三点:

实时loT数据分析

实时捕捉、分析IoT设备产生的巨量数据帮助用户实时分析和诊断设备的运行状况实时检测运行故障,实时预测制品良率等

实时推荐

实时分析用户行为、结合 AI 术建立更加精准的用户画像,及时推荐给用户更适合的新闻、视频和商品

实时反作弊

从海量数据中实时识别刷单作弊恶意爬虫等业务风险,避免企业出现巨大的经济损失,还可借助CEP (复杂事件处理)直接在流式处理作业中执行异常情况检测。

05

阿里云大数据处理与分析产品

云原生大数据计算服务MaxCompute

实时计算Flink

实时数仓Hologres

PAI平台

Hologres在大数据处理与分析中的功能

Hologres是一站式实时数据仓库引擎。支持海量数据的实时写入、实时分析、实时查询等功能。Holoqres在大数据处理与分析中的功能主要有以下三点:

亚秒级交互式分析(OLAP)

采用可扩展的MPP架构全并行计算,向量化算子发挥CPU极致算力,ORC格式列存优化索引,SSD存储优化I0,支持PB级数据亚秒级交互式分析体验。

高性能主键点查(Serving)

基于行存表的主键索引和查询引擎的短路径优化,支持每秒数十万QPS高性能服务型点查,支持高吞吐更新,相比开源系统性能提升10倍以上。

联邦查询,外表加速(Federation)

无缝对接MaxCompute,无需数据移动,支持外表透明加速BI访问,支持冷热数据关联分析,支持百万级每秒数据高速同步,支持OSS外表读写,简化数据入湖入仓。

05

阿里云大数据处理与分析产品

云原生大数据计算服务MaxCompute

实时计算Flink

实时数仓Hologres

PAI平台

PAI平台在大数据处理与分析中的功能

机器学习PAI(Platform ofArtificial lnteligence) 是阿里云人智能平台,提供一站式的机器学习解决方案。PAl平台在大数据处理

与分析中的功能主要有以下三点:

模型准备

在数据准备阶段,PAI-iTAG提供智能化数据标注服务。同时提供全托管的数据标注外包服务。

模型部署

在模型部署阶段,PAI-EAS提供在线预测服务,PAI一Blade提供推理优化服务。

模型开发

在模型开发阶段,可通过PAI-Designer 和PA-DSW两款开发工具来完成建模。

模型训练

在模型训练阶段,PAI一DLC提供一站式的云原生深度学习训练平

PAI平台沙箱实验

实验介绍

电信业务发展中的两个重要环节主要是开拓新用户和保留老用户。通过建立用户流失预警风控模型,可以快速的预测潜在流失客户,提前通过运营手段防止客户流失阿里云PAI提供了一套基于标签数据的特征编码,分类模型训练及模型评估的完整解决方案,可以快速、准确的挖掘潜在流失用户

实验目的

掌握使用阿里云PAI可视化建模的方法

掌握使用阿里云PAI创建算法模型的方法

PAI平台实验步骤

1.新建工作空间

2.关联资源

3.创建型

4.操作工作流

5.效果预览及发布

本章小结

通过本章节的学习,我们学到了

1.数据分析与挖掘的概念与区别

2.数据挖掘的五大算法: 分类、聚类、回归分析、关联规则和协同过滤的概念与原理

3.大数据处理分析计算的四大类型: 批处理计算、流计算、查询分析计算和图计算的概念原理与代表技术

4.大数据开源技术代表: MapReduce、Hive、Spark、Spark SQL、SparkStreaming、Spark MLlib等技术的概念原理

5.大数据处理与分析阿里云产品: MaxCompute Flink、Hologres和PAI平台在大数据分析与处理中的体现

数据可视化

课程目标

学习完本课程后,你将能够:

1.了解数据可视化基础知识,包括数据可视化的定义、优势、三个分支及常见数据可视化产品

2.熟悉数据可视化设计的流程

3掌握数据可视化基础图表与数据可视化工具

大数据概述大数据工程师ACA认证介绍

大数据技术生态

数据采集与预处理

数据存储与管理大数据分析与挖掘

数据可视化

当前阶段

大数据工程师ACA认证课程总结

数据可视化概述

数据可视化设计步骤

阿里云数据可视化产品应用

数据可视化概述

数据可视化的概念

数据可视化的优势

数据可视化的三个分支

常见的数据可视化产品

分析后的文本数据如何更加直观呈现出来?

示例

据统计,XX公司前半年衣服共销售1221434件,鞋子共销售1812776件,其中

一月份衣服和鞋子销售量分别为30000件、650000件;二月份衣服和鞋子销售量分别为540000件、680000件;三月份衣服和鞋子销售量分别为15000件、64000件四月份衣服和鞋子销售量分别为15666件、17555件五月份衣服和鞋子销售量分别为65222件、45666件;六月份衣服和鞋子销售量分别为555546件、355555件

数据可视化概念

数据可视化指使用点、线、图表、统计图或信息图表等工具对数据进行编码,在视觉上传达定量信息。

作用及目的:

化繁为简,实现可视化

更快发现新趋势、新机遇

有效增强数据交互性

将复杂的数据通过图形化的手段清晰的呈现出来,达到传达和沟通信息的目的。

思考

请观察右图,数据可视化有哪些优势?

数据可视化概述

数据可视化的概念

数据可视化的优势

数据可视化的三个分支

常见的数据可视化产品

数据可视化的优势

数据可视化主要有五个优势

传播速度快

数据更直观

多维展示

容易记忆

定制显示

传播速度快

示例

例如:要描述一个地方的地理位置或周边环境,可能需要很长的篇幅进行描述。通过数据可视化可以很快了解到这些情况。

优势

图比文本或电子表格更容易理解,人脑对视觉信息的处理速度要比书面信息快很多

数据更直观

在分析数据时,图往往可以比文字或表格更加直观呈现。

多维展示

示例

我们可以通过雷达图不仅可以看到衣服和鞋子的销售情况,还可以很快对数据进行排序,分析出销售最多的几个月份。

优势

数据可视化可以通过图表更容易对数据进行分类、排序显示,使数据可以多维度体现。

容易记忆

示例

通过折线图的走势情况可以迅速做出2月份是销售高峰期3、4、5月份是低峰期的判断

优势

使用恰当、简单的数据可视化图表,可以让观察者在短时间内关注重点,加强记忆。

定制显示

示例

统计图根据不同的数据模块进行单独设计,从而更好地体现各模块的特点。

优势

数据可视化可以针对不同数据模块进行单独设计,省去多余的内容,更好的吸引用户的注意力,提供更好的沟通方式。

思考

刚刚我们通过“销售数据”的统计场景介绍了数据可视化的优势,请大家再次思考数据可视化还有哪些场景?

数据可视化概述

数据可视化的概念

数据可视化的优势

数据可视化的三个分支

常见的数据可视化产品

数据可视化的三个分支

“数据可视化”是由科学可视化、 信息可视化和可视分析学三个学科构成。

科学可视化

面向科学和工程领域数据

信息可视化

用于信息的展示

可视性分析学

用于科学的对事物进行分析和研究

科学可视化

科学可视化主要通过计算机图形学创建客观的视觉图像,重点关注的是三维现象的可视化。

应用领域

计算机动画

计算机模拟

信息可视化

界面技术与感知

表面与立体渲染

立体可视化

应用场景

三维空间测量数据展示

模拟数据和医疗影像数据展示

信息可视化

信息可视化(Information visualization)是一个跨学科领域旨在研究大规模非数值型信息资源的视觉呈现。

主要方法

图形绘制热图

双曲树

...

应用场景

信息图形

金融数据分析

市场研究

可视分析学

可视分析学是一门以可视交互为基础的分析推理科学,包含图形学、数据挖掘和人机交互等技术,具体体现在数据分析可视化、交互操作方面。

应用场景

人机交互-自动驾驶,模型创建

地理分析-预防地质灾害

科学分析-新冠样片/确诊

气象预测-天气预报、洪水灾害

统计分析-决策制定

数据可视化概述

数据可视化的概念

数据可视化的优势

数据可视化的三个分支

常见的数据可视化产品

常见的有Echarts、Excel、Tableau、HighCharts等

思考

我们了解了大数据可视化的定义、优势和分支后,那如何进行数据可视化

设计呢?

02

数据可视化设计步骤

数据可视化设计步骤分为四步

主题确认

数据准备

图表选择

数据可视化

主题确认

业务需求确认.

主题风格确认

数据准备

数据内容处理

数据核对及重组

数据保存

图表选择

根据业务需求选择图表

数据可视化

优化图表

突出重点

主题确认

主题确认主要包括两种

业务需求确认

首先要确定受众群体和业务指标

其次明确要解决的具体问题

最后展示的信息以及重点呈现的内容

主题风格确认

根据业务需求、受众群体和应用场景,确定可视化展示的主题风格

主题确认示例

示例说明

阿里云Quick BI中提供了各种行业领域的模板例如:新零售大促可视化模板、商家直播模板、智慧城市监控模板、经营分析模板等。

实例分析

业务需求:新零售大促期间销售统计

受众群体:平台和店铺

主题风格:新零售大促

数据可视化设计步骤

主题确认

数据准备

图表选择

数据可视化

数据准备

主题确认后,要准备数据可视化的数据

数据可视化的原则: 准确性、实用性和适应性

准备步骤

数据核对及处理

首先,根据业务需求核对数据仓库中的数据,对于缺失的数据及时进行补充。

业务指标核对数据分组和重组

其次,将确定好的数据与业务指标进行核对、分析和重组

保存数据

最后,将重组后的数据保存到单独的表单中,供后续可视化使用。

数据准备示例

示例说明

以Quick BI提供的“建材智慧工厂生产看板”为例。在确定好主题后,就要对看板中的需要的数据进行检查例如对“原材料日购进&日消耗数据”进行检查。

示例分析

首先,核对原材料日购进&日消耗数据的完整性,对于缺失的日数据进行补充

其次,将日购进、日消耗数据按商品名称、销售额日环比进行分组统计;

最后,将统计数据保存到数据仓库中。

数据可视化设计步骤

主题确认

数据准备

图表选择

数据可视化

图表选择

图表的选择直接影响可视化最终的展示效果

要求

图表需要非常直观体现数据,满足对比、突出等业务需求。

大数据可视化工程师必须了解主流图表类型,熟悉图表特性。

图表选择示例

示例说明

如右图所示,折线图可以清楚展示事物的发展趋势

示例分析

通过右图,我们可以很明显发现从2016年5月开始,订单金额就开始下滑,但利润金额相对稳定,说明企业经营状况相对稳定

02

数据可视化设计步骤

主题确认

数据准备

图表选择

数据可视化

数据可视化

数据可视化是对数据可视化设计合理性的分析。分析是为了更好的优化图形和突出重点

要求

实际上,用户也不需要展示太多内容,对于复杂的数据信息一般直接采用一目了然的设计,可以直观看到关键信息

数据可视化分析示例

示例说明

以Quick B提供的“天猫618品牌大屏”模板为例。在618这一天,平台或商户都很关心商品的销售情况,包括对品牌、商品、地域、用户量、成交量等一系列信息的关注

示例分析

若设计上都想满足,例如“想将各品牌在各地域的销售情况以地图的形式呈现”,反而会占用大量的空间,导致关键业务内容无法突出体现。倒不如以“柱状图+折线图”的组合方式呈现。

03

阿里云数据可视化产品应用

基础图表

数据可视化分析QuickBI的入门应用

数据可视化产品DataV的入门应用

指标类图表(1/2)

指标看板

指标看板用于清晰简洁地展示核心

指标数据的现状。

数据要素

· 看板标签

看板指标

进度条

进度条用来展示某个指标的完成进度。

数据要素

。进度指示

水波图

与进度条类似,水波图用来展示某个

指标的数值占比。

数据要素

。进度指示

仪表盘

仪表盘可以清晰地展示出某个指标

值所在的范围。

数据要素

指针角度.

指标类图表

指标趋势图

指标趋势图常用来展示多个指标一段时间内的变化,可通过指标的变化快速判断是否有经营异常。

数据要素

。日期

·指标

翻牌器

翻牌器用于监控或展示业务的实时数据变化。

数据要素

展示指标

表格类图表

交叉表

交叉表用来展示表中某个字段的汇总值,例如求和、平均值、记数

最大值和最小值。

数据要素

·行

。列

透视表

与交叉表类似,透视表用来展示数据的树状钻取,并显示表中某个字段的汇总值,例如求和、平均值、记数、最大值和最小值

数据要素

· 展示指标

线图

线图用来展示在相等的时间间隔下

数据的趋势走向,例如,分析商品

销量随时间的变化,预测未来的销

售情况。

数据要素

·类别轴

值轴

颜色图例

面积图

与线图类似,面积图用来展示在一定

时间内数据的趋势走向以及他们所占

的面积比例。

数据要素

·类别轴

值轴.

颜色图例

趋势类图表(2/13)

堆积面积图

与面积图类似,不同的是堆积面积图上每一个数据集的起点不同,起点是基于前一个数据集奘喷豆贬艾不皑轴0的,用于显示每个数值所占大小随时间或类别颜色图例变化的趋势线,展示的是部分与整体的关系。

数据要素

类别轴

值轴

颜色图例

堆积面积图

百分比堆叠面积图

在层叠面积图的基础上,将各个面积

的因变量的数据累加并对总量进行归

化,形成了百分比堆叠面积图。

数据要素

·类别轴

值轴

颜色图例

趋势类图表(3/3)

组合图

组合图支持双轴展示不同量级数据,并在单边下支持常规线图柱图面积图组合、堆积混合和百分比堆积的复杂场景展示

数据要素

类别轴

值轴

颜色图例

比较类图表(1/5)

柱国

用来比较各组数据之间的差别,并且可以显示一段时间内的数据变化情况。

数据要素

类别轴

值轴

·颜色图例

柱图

堆积柱状图

堆积柱状图可以形象地展示一个大分类包含的每个小分类的数据,以及各个小颜色图例分类的占比,显示单个项目与整体之间.的关系。

数据要素

类别轴

值轴

颜色图例

比较类图表(2/5)

百分比堆积柱状图

百分比堆积柱状图的各个层高表示该类别数据占该分组总体数据的百分比。用于形象地展示一个大分类包含的每个小分类的数据,以及各个小分类的占比,显示单个项目与整体之间的关系。

数据要素

类别轴

值轴

颜色图例

环形柱状图

环形柱状图用来比较各组数据之间的差别,并且可以显示一段时间内的数据变

化情况。

数据要素

类别轴

值轴

颜色图例

比较类图表(3/5)

条形图

与柱图类似,条形图用横向的展示方式来比较

数据间的大小以及各项之间的差距。

数据要素

类别轴

值轴

颜色图例

堆积条形图

将每根条进行分割以显示相同类型下各个数据的大小情况。堆积条形图可以形象地展示一个·颜色例大分类包含的每个小分类的数据,以及各个小分类的对比,展示单个项目与整体之间的关系

数据要素

类别轴

值轴

颜色图例

比较类图表(4/5)

百分比堆积条形图

百分比堆积条形图的各个层宽代表的是该类别数值据占该分组总体数据的百分比。用于形象地展示一个大分类包含的每个小分类的数据,以及各个颜色图例小分类的占比,展示单个项目与整体之间的关系

数据要素

·类别轴

值轴

颜色图例

排行榜

排行榜用于展示TOP N的排行榜数据

数据要素

·类别轴

值轴

颜色图例

比较类图表(5/5)

瀑布图

瀑布图采用起始值与相对值结合的方式,直观地反映出数据在不同时期或

受不同因素影响下的结果,常用于经营分析和财务分析。

数据要素

·类别轴

值轴

·颜色图例

饼图

饼图常用于展示数据中各项的大小

与各项总和的比例。

数据要素

· 扇区标签

·扇区角度

雷达图

雷达图用来展示分析所得的数字或比率,

多用于展示维度值的分布。

数据要素

·分支标签

分支长度

分布类表(2/3)

玫瑰图

玫瑰图展示各项数据间的比较情况,多适用于

枚举型数据。

数据要素

扇区标签

扇区长度

矩形树图

矩形树图描述考察对象间数据指标的相

对占比关系,多用于查看维度值的分布

数据要素

色块大小

色块标签

分布类图表(3/3)

词云图

词云图常用来制作用户画像和用户标签

数据要素

词大小

词标签

关系类组件图表(114)

漏斗国

漏斗图展示业务各环节的转化递进情况。

数据要素

·漏斗层标签

漏斗层宽

对比漏斗图

对比漏斗图既可以对比两类事物在不同

指标下的数据情况。

数据要素

。漏斗宽度

。对比指标

关系类组件图表(214)

气泡图

气泡图用位置和气泡大小展示数据的分布和聚合情况。

数据要素

Y轴

X轴

类别

颜色

尺寸

播放轴

散点图

散点图展示数据的相关性和分布关系。

数据要素

Y轴

X轴

类别

颜色

播放轴

关系类组件图表(3/4)

分面散点图

分面散点图展示数据的相关性和分布关系。

数据要素

Y轴

X轴

颜色

来源去向图

来源去向图可以展示一组数据的来源、过程去向和占比情况,多用于分析展现流量流转的运营数据。

数据要素

中心节点

节点类型

节点名称

节点指标

关系类组件图表(414)

桑基图

桑基图是一种特定类型的流图,常用于展示流量分布与结构对比。

数据要素

节点类别

节点高度

指标拆解树

指标拆解树用于拆解维度和度量,通过维度拆解,可以轻松查看各个部分对整体的贡献

数据要素

分析

拆解依据

空间类图表

图表名称

气泡地图

色彩地图

LBS热力地图

LBS符号地图

LBS飞线地图

适用场景

气泡地图直观地显示家或地区的相关数据指标大小和分布范围

色彩地图用色采示数据的大小和分布范围

热力地图用热展示数据的大小和分布范围.

符号地图以用附着在地图上的图标或图片来标识数据点配为背景,

飞线地图以用动态的飞线反映两地或者多地之间的数据大小

数据要素

地理区域、气泡大小、气泡颜色

地理区域、色彩饱和度

地理区域、热力深度

地理区域、工具提示

飞线度量、地理区域 (from)、地理区域 (to)

时序类图表

图表名称

适用场景

数据要索

时间轴

时间轴可以动态展示行为、状态的变化。

时间轴/时间维度

节点标签/维度

节点标签/度量

动态条形图

动态条形图可以动态地展示出随着指标变化情况。

值轴

类别轴

播放轴

阿里云数据可视化产品应用

基础图表

数据可视化分析QuickBI的入门应用

数据可视化产品DataV的入门应用

阿里云数据可视化产品介绍

阿里云数据可视化产品主要有2种

数据可视化分析平台Quick Bi

帮助企业构建自上而下的决策分析体系

实现业务流程和数据分析直接协同

提升企业内各种人员的数据分析效率

形成数据消费和价值洞察的企业文化

数据可视化DataV

使用可视化应用的方式来分析并展示

庞杂数据的产品

帮助非专业的工程师通过图形化界面

搭建专业水准可视化应用

自动适配大屏显示

Quick BI 数据可视化分析平台

智能分析套件Quick BI是一个专为云上用户量身打造的新一代智能BI服务平台。Quick BI可以提供海量数据实时在线分析服务支持拖拽式操作和丰富的可视化效果,帮助用户轻松自如地完成数据分析、业务数据探查、报表制作等工作。

强大的Quick数据引擎

快速搭建数据门户

智能数据分析和交互

安全管控数据权限

Quick BI 数据可视化分析平台组件

Quick BI数据可视化分析平台提供了8种主要组件

指标

表格

趋势

比较

认证

分布

关系

空间

时序

Quick BI 数据可视化分析平台指标组件

适用场景

多用于某时间段汇总、完成进度、指标及趋势等场景重点突出企业/业务[北极星指标],可通过指标的变化快速判断是否有经营异常。

组件优势

计算能力:一键配置高级计算同环比、进度完成率

可视化效果:显示图标logo、自定义背景、字体大小、颜色等。

备注能力:可自定义文字/指标等备注信息,可自定义跳转外链路径,实现数据与其他系统之间的交互。

适用场景

用于多维度、多指标交叉分析场景,通过多指标交叉分析并进行决策判断。

组件优势

计算能力:一键配置高级计算同环比、累计计算、百分比、占比、总计小计

可视化效果:表格主题、树形展示、冻结换行、列宽等

备注能力:可自定义文字/指标等备注/尾注信息,可自定义跳转外链路径,实现数据与其他系统之间的交互

事件能力:数据反馈填报、钉钉对话唤起等事件

条件格式:文本/背景、图标、色阶、数据条等条件格式让数据更易读。

交互操作:维度/指标筛选、表格内筛选等

Quick BI 数据可视化分析平台趋势组件

适用场景

趋势类组件可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势

比如在折线图中,我们可以得出数据随时间变化的结论ÿ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值