1.集中趋势
集中趋势即用一个数据来表示整个数据集,反映了一组数据中心点的位置所在
1.1分类数据
众数
- mode,样本量中出现次数最多的数,可能有多个,如果所有的数据都只出现1次,可以认为不存在众数,也可以认为所有的数据都是众数。
- 位置代表值,不受数据中极端值影响。
Excel: mode(number1, number2, ...)
1.2顺序数据
中位数
- median,数据排序后处于中间的位置。
- 将数据分成两半,左边小于中位数,右边大于中位数;可以理解为二分位数
- 将样本数据排序后,取位于中间的数。
- 如果样本量n为奇数,中位数为第(n+1)/2个数;如3个样本量,中位数为第2个数;
- 如果样本量为偶数,中位数为中间两个数的平均数,即n/2和n/2 +1个数的平均数。如4个数,中位数为取第2和第3个数的平均数。
- 不适用于分类数据
- 位置代表值,不受极端值影响
Excel : median(number1, number2, ...)
分位数
- 用n-1个点将数据等分成n个部分,产生了:四分位数(quartile),十分位数(decile),百分位数(percentile)的概念。
- 四分位数也称四分位点,是数据排序后处于25%(下四分位数)和75%(上四分位数)位置上的值;
- 3个点4等分,排序后找到1/4位置和3/4位置的数。
- 一个例子说明如何计算样本量不能被4整除的四分位数:
- Excel: quartile(array, quart), array为要计算的数据集,拖选区域即可;quart=0,返回最小值;1返回下四分位数,2返回中位数,3返回上四分位数,4返回最大值。
1.3数值型数据
平均数
- mean,样本数据总和除以样本个数
- 数据的重心,数据误差相互抵消后结果
- 不适用于分类数据和顺序数据
- 受数据中极值影响
- 算术平均数:simple mean,未