位置度量:均值和中位数
对于连续数据,最广泛使用的是均值和中位数,他们是值集位置的度量。
为了克服传统均值定义的问题,又是使用截断均值的概念。指定0和100之间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得的结果即是截断均值,而标准均值是对应于p=0%的截断均值。
散布度量:极差和方差
绝对平均偏差(AAD)、中位数绝对偏差(MAD)、四分位数极差(IQR)
对于多元数据,每个属性的散布可以独立于其他属性。对于具有连续变量的数据,数据的散布更多的用协方差矩阵(covariance matrix)S表示,其中,S的第ij个元素sij是数据的第i个和第j个属性的协方差。这样,如果xi和xj分别是i个和第j个属性,则
xki和xkj分别是第k个对象的第i个和第j个属性的值。
可视化
快速吸取大量可视化信息,并发现其中模式。
一般概念:
- 表示:将数据映射到图形元素
- 安排:正确选择对象和属性的可视化表示是基本的要求。
- 选择:删除或不突出某些对象和属性。
技术:
1.少量属性的可视化:茎叶图
直方图:相对频率直方图、Pareto直方图、二维直方图
盒状图
饼图
百分位数图和经验累计分布函数(ECDF)
散布图、散布图矩阵
可视化事件空间数据:
等高线图
曲面图
矢量场图
低维切片
动画
可视化高维数据:
矩阵
平行坐标系
星形坐标和Chernoff脸
OLAP和多维数据分析
分析多维数据:
- 数据立方体:计算聚集量
- 维归约和转轴
- 切片和切块
- 上卷和下钻