探索数据——数据可视化

位置度量:均值和中位数

对于连续数据,最广泛使用的是均值和中位数,他们是值集位置的度量。

为了克服传统均值定义的问题,又是使用截断均值的概念。指定0和100之间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得的结果即是截断均值,而标准均值是对应于p=0%的截断均值。

散布度量:极差和方差

绝对平均偏差(AAD)、中位数绝对偏差(MAD)、四分位数极差(IQR)

 对于多元数据,每个属性的散布可以独立于其他属性。对于具有连续变量的数据,数据的散布更多的用协方差矩阵(covariance matrix)S表示,其中,S的第ij个元素sij是数据的第i个和第j个属性的协方差。这样,如果xi和xj分别是i个和第j个属性,则

 xki和xkj分别是第k个对象的第i个和第j个属性的值。

可视化

快速吸取大量可视化信息,并发现其中模式。

一般概念:

  1. 表示:将数据映射到图形元素
  2. 安排:正确选择对象和属性的可视化表示是基本的要求。
  3. 选择:删除或不突出某些对象和属性。

 技术:

1.少量属性的可视化:茎叶图

 

 

直方图:相对频率直方图、Pareto直方图、二维直方图

盒状图

 

 

饼图

百分位数图和经验累计分布函数(ECDF)

 

 

散布图、散布图矩阵

可视化事件空间数据:

等高线图

曲面图

矢量场图

 

低维切片

动画

可视化高维数据:

矩阵

平行坐标系

 

 星形坐标和Chernoff脸

 

OLAP和多维数据分析

分析多维数据:

  1. 数据立方体:计算聚集量
  2. 维归约和转轴
  3. 切片和切块
  4. 上卷和下钻

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

古道西风瘦码

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值