利用图标展示数据,可以让我们对数据的特征有一个大概了解,但是要全年的把握数据的分布,还需要好到反映数据特征的特征值。数据的分布特征可以从三个角度进行描述。
1、集中趋势(数据的聚集程度):众数、中位数、分位数、平均数(算术平均数、加权平均数、几何平均数)
2、离散程度(数据偏离中心的程度):数值型数据(方差、标准差、极差、平均差)、顺序数据(四分位差)、 分类数据(异众比率)、相对离散程度(离散系数)
3、分布的形状(数据分布的偏态和峰态):偏态系数、峰态系数
集中趋势
众数
众数就是数据当中出现次数多的变量值(对于分类数据就是出现最多的类别),是当数据量较大的时候才有意义的一个测量值,主要用于分类数据。一组数据中没有明显的集中趋势就可能没有众数,也有可能众数在一组数据当中有两个甚至多个。
中位数
中位数是一组数据排序后处于中间位置上的变量值(*是排序后的数据哦!),主要用于顺序数据和数值数据不适用于分类数据。
中位数的位置=(n+1)/2
若n为奇数 比如一组11个数的数据中位数的位置就是6 中位数则是第六个数的数值
若n为偶数 比如一组10个数的数据中位数的位置就是5.5 中位数则是(第五个数+第六个数)/2
四分位数
四分位数是一组数据排序后处在25%和75%位置上的两个数,和中位数三个店把数据分成四份每一部分25%。下四分位用 QL表示 QL位置=n/4, 上四分位数用QU</