数据可视化初学笔记（一）

最新推荐文章于 2024-02-20 16:16:50 发布

Tmcios

最新推荐文章于 2024-02-20 16:16:50 发布

阅读量2.5k

点赞数 7

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_39290054/article/details/90947222

版权

大数据专栏收录该内容

4 篇文章 0 订阅

订阅专栏

数据可视化简介

可视化：对数据进行交互的可视表达以增强认知的技术。

•它将不可见或难以直接显示的数据映射为可感知的图形、符号、颜色、纹理等，增强数据识别效率，高效传递有用消息。

• 数据可视化的意义
1．视觉是人类获得信息的最主要途径
2．可视化能够帮助人们提高理解与处理数据的效率
3．数据可视化能够在小空间中展示大规模数据

• 数据可视化的作用（记录信息、分析推理、证实假设、交流思想）

可视化可以增强工作记忆
可以突出变化
使用高对比度，使得物体更容易区分。

** 数据可视化的基本特征**

特征	描述
易懂性	可视化使人们更加容易地理解数据和使用数据，进而便于人们将数据与他们的经验知识相关联。可视化使得原本碎片化的数据转换为具有特定结构的知识，从而为科学决策支持提供强有力的支持。
必然性	数据量已远远超出了人们直接读取、浏览和操作数据的能力，必然要求人们对数据进行形象化的归纳和总结，对数据的结构和表现形式进行有效的转换处理。
多维性	通过数据可视化的多维呈现，能够清楚地对数据相关的多个变量或者多个属性进行标识，并且所处理的数据可以根据每一维的量值来进行显示、组合、排序与分类。
片面性	数据可视化往往只是从特定的视角或需求来认识数据，并得到符合特定目的的可视化模式。数据可视化的片面性特征意味着可视化模式不能替代数据本身，只能作为数据表达的一种特定形式。
专业性	数据可视化与领域专业知识紧密相关，其形式需求多种多样并随行业、用户和环境等条件而动态变化。专业化特征是人们从可视化模型中提取专业知识的必要环节，是数据可视化应用的最后流程。

视觉感知与视觉通道

**(*)格式塔（gestalt）原则**

—— 结构比元素重要，视觉形象首先作为统一的整体被认知。

1.贴近原则（接近性 proximity）
2.相似原则（相似性 similarity）
3.连续原则（连续性 continuity）
4.闭合原则（闭合性 closure）
5.共势原则（common fate）
6.好图原则（good figure）
7.对称性原则（symmetry）
8.经验原则（past experience）
9.简单性（simplicity）

相对性&绝对性感知系统基于相对判断，而非绝对判断(Weber‘s Law)

视觉通道的类型
（空间、标记、位置、尺寸、颜色、亮度、饱和度、色调、配色方案、透明度、方向、形状、纹理、动画）

表现力&&有效性

视觉通道的表现力要求视觉通道准确编码数据包含的所有信息，视觉通道在对数据进行编码的时候，需要尽量忠于原始数据。

有效性通常表现力符合属性的重要性。

表现力判断标准

标准	描述
精确性	能否能够准确得在视觉上表达数据之间的变化
可辨性	同一个视觉通道能够编码的分类个数，即可辨识的分类个数上限
可分离性	不同视觉通道的编码对象放置到一起，是否更容易分辨
视觉突出	重要的信息，是否用更加突出的视觉通道进行编码

折线图多用于展现趋势，而不适合用在非连续的项目上。

数据

数据属性

数据对象的特征（Characteristics）或特性（feature）（别名：特征、维度、变量）
属性集合：属性向量

1.类别型属性
2.序数型属性
3.数值型属性

数据相似性度量
1.类别型属性
如果有两个对象X、Y，均有p个类别属性，则他们的相异度为
$\\d（X,Y）= \frac {p-m}{p}\\$
其中，m是X,Y中取值相同的属性数目。

2.比值型数据属性
距离可被用来衡量两个比值型数值属性对象的相异度。距离函数d(X,Y)的定义需要同时满足以下三个准则:
1)非负性，d(X,Y)≥0(d(X,Y)=0当且仅当X=Y,即任何对象到自己的距离为0)。
2)对称性，d(X,Y) = d(Y,X),即X到Y的距离等于Y到X的距离。
3)三角形不等式(两边之和大于第三边),d(X,Y)+d(Y,Z)≥d(X,D)。下面介绍常见的几类距离函数，设对象X, Y均为n维数据X= (x,L…x), Y= (y.+y,*y) 。

3.序数型属性
假设某个序数属性t有N,个可能取值，排序后顺序为1, 2, … N,则将属性值归一化到[0, 1]区间中的值。

4.区间型数值属性

数据预处理

数据的基本统计方式：均值、中位数、方差

数据的不确定性
来源：本身误差、精度转换、特定应用需求、缺失值、数据集成
分类：存在不确定性、属性不确定性

数据质量评价标准——数据质量高 -> 对目标用途的符合度高

精确性（Accuracy）、完整性（Completeness）、一致性（Consistency）、适时性（Timeliness）、可信性（Believability）、可解释性（Interpretability）

数据可视化质量的衡量标准: 数据墨水比（data-ink ratio）

数据清理&数据集成

数据清洗：检测和清除数据中的错误和不一致，以提高数据质量。

数据处理涉及的典型数据错误类型：

错误类型	处理方法
缺失值	（1）使用常量代替缺失值（2）属性平均值填充（3）利用回归、分类方法进行预测试填充（4）人工填充
噪声值	（1）回归分析（2）离群点分析

数据整合包括：
(1)合并来自多个数据源的数据
(2)向用户提供一个关于这些数据的统一视图

数据集成需要解决的问题
（1）属性匹配
（2）冗余去除
（3）数据冲突检测与处理

数据清洗和整合步骤
初步分析：在操作之前进行数据分析
冲突解析：解析数据源间的数据冲突
定义数据转换工作流和转换规则：使用工作流方式完成模式（schema）配准和转换
工作流验证：验证工作流中的步骤是否正确
数据转换：开始流程

数据存储

文件存储
Csv文件：逗号分隔值（comma-separated values）
xml 文件：通用格式（可扩展标记语言，eXtensible Markup Language）
kml地图：在基于web的二维或三维地图上表达地理标注信息（Keyhole Markup Language）

数据库和数据仓库的异同

	数据库	数据仓库
特点	处理数据操作	处理数据中的信息
面向领域	事务	分析
用户	终端用户：职员、数据库管理员（DBA）	知识工作者：经理、分析师、执行官
功能	日常操作	长期决策支持分析
数据	当前最新的数据	历史数据、时变数据
访问方式	读写平均	（主要）读
聚焦点	数据输入	信息/知识输入
容量尺度	1GB~ 1TB	>TB