获得数据的总体印象对于成功的数据预处理是至关重要的,这时候就需要不同的方法来度量数据集合
1.分布式度量:可以通过如下方法计算度量(即函数):将数据集划分成较小的子集,计算每个子集的度量,然后合并计算结果,得到原(整个)数据集的度量值。
例如可以用不同的函数来求数据集的sum、count、min、max,最后合并这些计算记过,得到数据集的度量值
2.代数度量:设计一代数函数,其中可以取分布式度量计算的多个值进行计算。
例如取分布式度量中的sum和count 用mean()计算平均数 mean=sum/count
3.整体度量:必须对整个数据集计算的度量,不能划分子集。例如计算中位数、众数