我们有时候需要平均数、中位数、均值等信息,但是往往又不够。还是工资距离,公司平均工资4K,到底1K的多少(靠,还有1K的),2K,3K4K5K。。。各有多少?
我们需要了解 整个公司的工资分散情况,公司公司的数据集肯定有一定差异,我们需要通过某种方式度量这种差异。
——————————
全距【极差】,通过计算全距,我们可以轻易获知数据的分散情况。
全距会指出数据的扩展范围,有点儿像测量数据的宽度。
如何计算:全距 = 数据集中的最大数【上界】- 最小数【下界】
1 , 2 , 2.3, 3 , 3.5, 4 , 5
工资按照由小到大排列;
最左边的1是下界,左右边的5是上届;
全距= 5-1=4
——————————
如果,上面工资再增加一个BOSS公司20K,全距是多少? 20-1=19 ,一下增大好多了,,就是因为BOSS这个异常值,造成数据变化太大。
所以其实我们如果能够抛弃这个异常值,数据就比较正常了。
问题来了,你怎么知道哪个是异常值?如果抛弃这个异常值?
那就需要人为的去找,我们就通过这个“四分位数”帮忙!
就是把数据分成 4个相等的数据块
下界 中位数 上届
—— 1 ,2 —— 2.3 , 3 —— 3.5 , 4 —— 5 ,20 ——
Q1 Q2 Q3
|——取这些值之间的距——|
下四分位数 上四分位数
得到的叫: 迷你距
四分位距 = 上四分位数 - 下四分位数
如何求?
1,求下四分位树的位置:
A,计算N/4
B,如果结果是整数,则下四分位树位于N/4这个位置和下一个位置之间,那么这2个位置的平均值就是 下四分位树;
C,如果结果不是整数,则向上取整数,就是下四分位树的位置;
2,求上四分位树的位置:
A,首先计算3N/4
B,结果是整数,则上四分位数位于3N/4这个位置和下一个位置的中间,2个数平均数就是了
C,如果不是整数,则向上取整数,就是上四分位数的位置