数据可视化学习01

数据可视化概述

什么是数据可视化?

在计算机领域,数据可视化是对数据的一种形象直观的解释,实现从不同维度观察数据,从而得到更有用的价值
抽象的、复杂的、不易理解的数据
图形、图像、符号、颜色、纹理等
具备较高的识别效率
数据本身所包含的有用信息。

数据可视化的目的
数据是根本,目的是导向
数据可视化的目的是对数据进行可视处理,以使得能够明确地、有效地传递信息

数据可视化的目的

数据是根本,目的是导向
数据可视化的目的是对数据进行可视处理,以使得能够明确地、有效地传递信息 体现数据之间的关系、模式、异常
模式:是指数据中的规律

关系:是指数据之间的相关性

  • 关联性和因果关系
  • 数据间的比较
  • 数据的构成
  • 数据的分布或联系
    异常:指有问题的数据
  • 设备出错
  • 人为错误输入
  • 正确的数据

数据可视化的作用与分类

数据可视的作用
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a3xQbvOS-1645776516396)(./images/1645661783894.png)]

数据可视化的分类
科学可视化
信息可视化
可视分析学

数据可视化的未来

数据可视化面临的挑战

  • 数据规模大
  • 数据质量问题
  • 数据快速动态变化
  • 分析能力不足
  • 多来源数据的类型和结构各异
    数据可视发展方向
  • 可视化技术与数据挖掘有着紧密的联系
  • 可视化技术与人机交互有着紧密的联系
  • 可视化与大规模、高纬度、非结构化数据有着紧密的联系

数据可视化基础

视觉感知

视觉感知的定义和视觉认知
视觉感知是指客观事物通过人的视觉器官在人脑形成的直接反应。
人类只有通过“视觉感知”才能达到“视觉认知”

视觉感知的处理过程
视觉寻找——寻找——分辨——识别——确定——记忆搜索
格式塔原则包括哪些?

  • 整体的统一感知
  • 接近原则
  • 相似原则
  • 闭合原则
  • 连续原则

色彩的三要素是什么?
色相 、纯度(饱和度)、明度(亮度)

视觉编码的定义
定义:描述数据与可视化结果的映射关系

视觉通道的定义、类型,及视觉通道表现力和有效性体现在哪些方面?
可视化编码
可视化编码是由标记(图形元素)和视觉通道两部分组成
标记(图形元素):如点、线、面、体
视觉通道:是指用于控制图形元素的展示特性,包括元素的颜色、位置、尺寸、方向、色调、饱和度、亮度等等

视觉通道的类型

  • 定性或分类的视觉通道:适合用于编码分类的数据信息 (如形状、颜色的色调、空间位置)
  • 定量或定序的视觉通道:适合用于编码有序的或者连续型的数据信息, (如直线的长度、区域面积、空间的体积、斜度、角度、颜色的饱和度和亮度等)
  • 分组的视觉通道:分组是对多个或多种标记的组合来进行描述的。 (分组通道包括接近性、相似性和包括性。分组通道适合将存在相互联系的分类的数据进行分组,以此来表现数据内在的关联性)

视觉通道的表现力和有效性

  • 精确性,人们视觉感知后的判断结果是否和原始数据相一致。
  • 可辨性,视觉通道有不同的取值范围,如何取值能使人们易于区分该视觉通道的两种或多种取值状态。
  • 可分离性,不同视觉通道的编码对象放置到一起,是否容易分辨。
  • 视觉突出,对重要的信息,是否用更加突出的视觉通道进行编码。

数据准备

  • 数据采集与预处理
  • 数据存储与管理
  • 数据分析与挖掘
  • 可视化展示

举例说明数据的类型有哪些?
类别型、有序型、数值型(区间型、比值型)
简述数据预处理的步骤。
初始数据的获取-数据清理-数据集成与融合-数据变换-数据规约
数据清理:指修正数据中的错误、识别脏数据、更正数据不一致的过程
数据整合:指把来自不同数据源的同类数据进行合并,减少数据冲突,降低数据冗余程度等
常见的数据挖掘分析方法有哪些?

大数据存储与管理

主要数据存储介质类型包括内存、磁盘、磁带等
主要数据组织管理形式包括按行组织、按列组织、按键值组织和按关系组织。
主要数据组织管理层次包括按块级组织、文件级组织及数据库级组织等。
数据库

  • 关系数据库
  • 文档存储
  • 列式存储
  • 键值存储
  • 图形数据库
  • 分布式数据库
  • 内存数据库
大数据计算框架

数据类型:静态数据、动态数据
计算框架:批处理、流式处理、交互式查询
具体技术:MapReduce、Spark

数据挖掘
  • 分类分析
  • 聚类分析
  • 关联分析
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-A2URIogW-1645776516398)(./images/1645671409722.png)]

数据可视化的基本框架

数据可视化的流程以数据流向为主线,其核心流程主要包括:

  • 数据采集
  • 数据处理和变换
  • 可视化映射
  • 用户感知

可视化流程

数据可视化流程中的核心要素包括三个方面

  • 数据表示和变换
  • 数据的可视化呈现
  • 用户交互

数据可视化设计
问题刻画层、抽象层、编码层、算法层

问题刻画层:概括现实生活中用户遇到的问题(以人为本)对设计人员的要求:

  • 确定数据来源
  • 描述数据,设计人员对整个设计过程中数据的描述任务务必要细致
  • 判断解决方案的有效性

抽象层:抽象相应数据类型的操作,提炼出现实问题中的数
编码层:设计编码和交互方法,设计与数据特征相关的视觉编码与交互方法
算法层:实现算法和交互,通过算法和交互,通过算法挖掘出数据中的价值信息,目标是解决问题

可视化设计标准:

  • 要有很强的表达力
  • 有效性强
  • 能简洁地传达信息
  • 易用
  • 美观

数据可视化的基本原则

  • 数据筛选。
  • 数据到可视化的直观映射
  • 视图选择与交互设计
  • 美学因素
  • 可视化的隐喻
  • 颜色与透明度

数据筛选:展示适量的信息内容,以保证用户获取数据信息的效率
数据到可视化的直观映射: 设计者不仅要明确数据语义,还要了解用户的个性特征。使用正确的视觉通道去编码数据信息。对于类别型数据属性,务必使用分类型视觉通道;对于有序型数据属性,也需要使用定序的视觉通道进行编码
视图选择与交互设计:使用人们认可并熟悉的视图设计方式;简单的数据可以使用基本的可视化视图。复杂的数据需要使用或开发新的较为复杂的可视化视图。

视图的交互包括

  • 数据映射方式的控制
  • 数据缩放工具
  • 细节控制

美学因素
简单原则:尽量避免在可视化制作中使用过多的元素造成复杂的效果
平衡原则:可视化的主要元素尽量放在设计空间的中心位置或中心附近,并且元素在可视化空间尽量平衡分布
聚焦原则:将用户的注意力集中到可视化结果中的最重要区域
可视化的隐喻

用一种事物去理解和经历另一种事物的方法称为隐喻
设计师将信息进行转换、抽象和整合,用图形、图像、动画等方式重新编码表示信息内容展示给用户,用户在看到可视化结果后进行隐喻认知,最终了解信息内涵

颜色与透明度
颜色在数据可视化领域通常被用于编码数据的分类或定序属性。
颜色混合效果可以为可视化视图提供数据可视化的上下文内容信息,方便观察者对于数据全局的把握。(慎用)

数据可视化的基本图表

  • 数据轨迹:直观呈现数据分布 均值 偏移等
  • 柱状图:适用于二维数据集 增长型规模数据集
  • 折线图:二维 适用于较大的数据集
  • 直方图:绘制,连续性的数据展示一组或者多组数据的分布状况
  • 饼图:二维 只适用反映部分与整体的关系
  • 等值线图:等温图 等势图
  • 走势图:折线图为基础 来表示数据走势
  • 散点图:二维或三维 有两个维度需要比较
  • 气泡图:三维或四维 其中只有两维能精确辨识
  • 维恩图: 使用平面上一个封闭的图形来表示数据节后之间的关系
  • 热力图:使用颜色来表达位置相关的二维数值数据大小
  • 雷达图:四维以上 数据点不超过6个
  • 盒须图(箱型图):表示出数据的散布情况
  • 多视图:

数据可视化工具

数据可视化工具的特性

实时性
使用爆炸式增长的数据量
快速收集分析数据,并对数据信息进行实时更新

操作简单
快速开发、易于操作 满足互联时代信息多变的特点

更丰富的展现,满足数据展现等等多维度要求

多种数据集成支持方式

  • 入门级工具( Excel)
  • 信息图表工具(D3、Visual.ly、Raphaël、Flot、Echarts、Tableau、大数据魔镜)
  • 地图工具( Modest Maps、Leaflet、PolyMaps、Openlayers、Kartograph、Quanum GIS)
  • 高级分析工具( Processing、NodeBox、R、Python、D3、Weka和Gephi)等
  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值