探索数据 有助于选择合适的数据预处理和数据分析技术 处理一些通常由数据挖掘解决的问题 包括三个主题:汇总统计、可视化、OLAP 3.2 汇总统计 频率和众数 多用于分类数据 百分位数 多用于连续数据 位置度量:均值和中位数 均值对离群值很敏感 ——> 截断均值 散布度量:极差和方差 极差是最大值和最小值的差 方差对离群值敏感,常常需要使用更稳健的估计: 绝对平均偏差(AAS) 中位数绝对偏差(MAD) 四分位数极差(IQR) 多元汇总统计 协方差矩阵: