昨天讲了对数据预处理的一个最简单的方法,利用数据分级进行异常值查询,这只是数据探索的第一步,而实际地统计分析前期数据的探索光去除异常值远远不够,还需要对数据的分布进行检查,探索全局异常值和局部异常值,了解全局趋势和局部变化,进而检查空间自相关(这一步对于克里金插值方法的选择至关重要)。今天我们的专题就是对定量数据分布探索。
Tips:不是所有的插值方法都要求数据服从正态分布,但以下方法要求数据必须服从正态分布,普通克里金、简单克里金和泛克里金法创建分位数图和概率图,如果数据本身不是正态分布,想要使用上述方法,必须通过某种变换使数据服从正态分布。直方图和正态QQ图可帮助检查数据是否服从正态变换。
步骤:地统计分析工具条→探索数据→直方图或正态图
由上图可以看出直方图由两部分内容组成,频率分布和汇总统计数据。频率分布为条形图显示的内容,用来显示观察值位于特定区间或组之内的频率。汇总统计数据的内容:平均值:数据的算数平均值;标准差:用来表征离散度,值越小,说明数据聚类相对于均值越紧密;偏度:用来表征分布对称度的测量值。对于对称的分布,偏度系数为零。如果分布具有较长的大值右尾部,则为正偏分布;如果分布具有较长的小值左尾部,则为负偏分布。对于正偏分布,平均值大于中间值;对负偏分布,平均值小于中间值。下图显示了一个正偏分布