最近加入一个数据挖掘学习小组,热心的群主制定了一个详细的每周学习计划,分为统计学和机器学习两大模块。学习完要提交作业,以文章输出或者其它方式都行,现在开始第一周的统计学相关知识输出啦,先上一张思维导图。前面部分以文字为主,涉及到的数学公式放在最后。
一、集中趋势
集中趋势反映各数据向其中心值靠拢或聚集的程度。
㈠ 众数
- 数据集合中出现次数最多的变量值被称为众数。
- 众数可能有一个,也可能有多个。如果所有数据出现的次数都一样,那么这组数据没有众数。
- 在高斯分布(正态分布)中,众数位于峰值,和平均数、中位数相同。
- 一般情况下,只有在数据量比较大的情况下,众数才有意义。
㈡ 中位数
将一组数据按大小顺序排列后,处于中间位置上的变量值就是中位数。计算中位数有两种情况,根据数据个数而定。中位数是一个位置代表值,同样不受极端值的影响。