1.描述统计分析
将一系列复杂的数据减少为几个能够起到描述作用的数字,用这些代表性的数字来代表数据集,进而知道数据的整体情况。
常用的4个指标:①平均值;②四分位数;③标准差;④标准分
1.1 平均值
表示一组数据集中趋势的指标,指在一组数据中所有数据之和再除以这组数据的个数。
缺点:平均值对异常数值不敏感,当数据中有异常值时,用平均值来描述数据整体情况是不准确的。
1.2 四分位数
中位数:将数据集有n个数值,按从小到大进行排序,如果n是奇数,中位数是位于中间数值;如果n是偶数,中位数就是中间两个数的平均值。
四分位数:下四分位数的位置= (n+1) × 0.25
中位数的位置= (n+1) × 0.5
上四分位数的位置= (n+1) × 0.75
用箱线图来理解四分位数:
四分位数的应用:比较数据;识别异常值。
异常值: