机器学习中的数学(3):距和差

该文主要写统计学习过程中遇到的距和差。

例:大学篮球队有学员毕业,现需招一个新人进入球队。在经过多场比赛后,球队教练得到了如下数据:

王二每场比赛得分78910111213
频数1122211
张三每场比赛得分79101113  
频数12421  
李四每场比赛得分36710111330
频数2123111

根据当前的数据,教练发现这三个人得分的算术平均数、中位数、众数都一致,均为10。名额只有一个,该选哪位同学入校队?

全距

全距又叫极差,是用于度量数据集分散程度的一种方法。其算法为最大值(又称上界)与最小值(又称下界)的差。

由此可以得出新球员的全距分别是6,6,27。新的问题来了球员王二和张三具有相同的全距值。虽然全距值能看出数据集的宽度,但是看不出数据的分布形态,特别容易收异常值的影响。

例如数据集(1,1,1,2,2,2,2,3,3,3,3,3,4,4,4,4,5,5,5,10)。如果没有数据10则该数据集的全距为4,加上10之后,全距变为9,两者差异较大。

四分位距

四分位数也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(称为下四分位数)和处在75%位置上的数值(称为上四分位数)。

第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)

四分位数计算公式如下:

首先确定四分位数的位置:

Q1的位置= (n+1) × 0.25

Q2的位置= (n+1) × 0.5

Q3的位置= (n+1) × 0.75

n表示项数

对于四分位数的确定,有不同的方法,另外一种方法基于N-1 基础。即

Q1的位置=1+(n-1)x 0.25

Q2的位置=1+(n-1)x 0.5

Q3的位置=1+(n-1)x 0.75

Excel 中有两个四分位数的函数。QUARTILE.EXC 和QUARTILE.INC

QUARTILE.EXC 基于 N+1 的方法,QUARTILE.INC基于N-1的方法。

注:将n个数从小到大排列:

Q2为n个数组成的数列的中数(Median);

当n为奇数时,中数Q2将该数列分为数量相等的两组数,每组有 (n-1)/2 个数,Q1为第一组 (n-1)/2 个数的中数,Q3为为第二组(n-1)/2个数的中数;

当n为偶数时,中数Q2将该数列分为数量相等的两组数,每组有n/2数,Q1为第一组 n/2个数的中数,Q3为为第二组 n/2 个数的中数。

除了四分位距之外还有十分位距、百分位距等

方差

方差是度量数据分散性的一种方法,是数值与均值的距的平方数据的平均值,是衡量源数据和期望值相差的度量值,具体公式如下:

注:当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。

标准差

标准差是反映一组数据离散程度最常用的一种量化形式,是表示精确度的重要指标。是离均差平方的算术平均数(即:方差)的算术平方根。计算公式如下:

总体标准差:

样本标准差:

标准误差:

与方差:方差=标准差的平方。

在实验中单次测量总是难免会产生误差,为此我们经常测量多次,然后用测量值的平均值表示测量的量,并用误差条来表征数据的分布,其中误差条的高度为±标准误差。这里即标准差。

变异系数:

其中,(读:X bar)指数据的平均数。

注:文中部分引用了百度百科,感觉对文中认识不足或者不理解的地方也可以参看百度百科

能有限,短文将不断进行完善更新,欢迎对不足和错误之处进行批评指正。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值