机器学习中的数学（3）：距和差

最新推荐文章于 2023-05-06 17:28:26 发布

数据牧童

最新推荐文章于 2023-05-06 17:28:26 发布

阅读量418

点赞数

分类专栏：统计学文章标签：统计学

本文链接：https://blog.csdn.net/u010615567/article/details/112909768

版权

统计学专栏收录该内容

4 篇文章 0 订阅

订阅专栏

该文主要写统计学习过程中遇到的距和差。

例：大学篮球队有学员毕业，现需招一个新人进入球队。在经过多场比赛后，球队教练得到了如下数据：

王二	每场比赛得分	7	8	9	10	11	12	13
王二	频数	1	1	2	2	2	1	1
张三	每场比赛得分	7	9	10	11	13
张三	频数	1	2	4	2	1
李四	每场比赛得分	3	6	7	10	11	13	30
李四	频数	2	1	2	3	1	1	1

根据当前的数据，教练发现这三个人得分的算术平均数、中位数、众数都一致，均为10。名额只有一个，该选哪位同学入校队？

全距

全距又叫极差，是用于度量数据集分散程度的一种方法。其算法为最大值（又称上界）与最小值（又称下界）的差。

由此可以得出新球员的全距分别是6，6，27。新的问题来了球员王二和张三具有相同的全距值。虽然全距值能看出数据集的宽度，但是看不出数据的分布形态，特别容易收异常值的影响。

例如数据集（1,1,1,2,2,2,2,3,3,3,3,3,4,4,4,4,5,5,5,10）。如果没有数据10则该数据集的全距为4，加上10之后，全距变为9，两者差异较大。

四分位距

四分位数也称四分位点，是指在统计学中把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值。四分位数是通过3个点将全部数据等分为4部分，其中每部分包含25%的数据。很显然，中间的四分位数就是中位数，因此通常所说的四分位数是指处在25%位置上的数值（称为下四分位数）和处在75%位置上的数值（称为上四分位数）。

第一四分位数 (Q1)，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 (Q2)，又称“中位数”，等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 (Q3)，又称“较大四分位数”，等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位距（InterQuartile Range,IQR）

四分位数计算公式如下：

首先确定四分位数的位置：

Q1的位置= (n+1) × 0.25

Q2的位置= (n+1) × 0.5

Q3的位置= (n+1) × 0.75

n表示项数

对于四分位数的确定，有不同的方法，另外一种方法基于N-1 基础。即

Q1的位置=1+（n-1）x 0.25

Q2的位置=1+（n-1）x 0.5

Q3的位置=1+（n-1）x 0.75

Excel 中有两个四分位数的函数。QUARTILE.EXC 和QUARTILE.INC

QUARTILE.EXC 基于 N+1 的方法，QUARTILE.INC基于N-1的方法。

注：将n个数从小到大排列：

Q2为n个数组成的数列的中数（Median）；

当n为奇数时，中数Q2将该数列分为数量相等的两组数，每组有 (n-1)/2 个数，Q1为第一组 (n-1)/2 个数的中数，Q3为为第二组(n-1)/2个数的中数；

当n为偶数时，中数Q2将该数列分为数量相等的两组数，每组有n/2数，Q1为第一组 n/2个数的中数，Q3为为第二组 n/2 个数的中数。

除了四分位距之外还有十分位距、百分位距等

方差

方差是度量数据分散性的一种方法，是数值与均值的距的平方数据的平均值，是衡量源数据和期望值相差的度量值，具体公式如下：

注：当数据分布比较分散（即数据在平均数附近波动较大）时，各个数据与平均数的差的平方和较大，方差就较大；当数据分布比较集中时，各个数据与平均数的差的平方和较小。因此方差越大，数据的波动越大；方差越小，数据的波动就越小。

标准差

标准差是反映一组数据离散程度最常用的一种量化形式，是表示精确度的重要指标。是离均差平方的算术平均数（即：方差）的算术平方根。计算公式如下：

总体标准差：

样本标准差：

标准误差：

与方差：方差=标准差的平方。

在实验中单次测量总是难免会产生误差，为此我们经常测量多次，然后用测量值的平均值表示测量的量，并用误差条来表征数据的分布，其中误差条的高度为±标准误差。这里即标准差。

变异系数：

其中，（读：X bar）指数据的平均数。

注：文中部分引用了百度百科，感觉对文中认识不足或者不理解的地方也可以参看百度百科

能有限，短文将不断进行完善更新，欢迎对不足和错误之处进行批评指正。

数据牧童

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习中的数学（3）：距和差

该文主要写统计学习过程中遇到的距和差。例：大学篮球队有学员毕业，现需招一个新人进入球队。在经过多场比赛后，球队教练得到了如下数据：王二每场比赛得分 7 8 9 10 11 12 13 频数 1 1 2 2 2 1 1 张三每场比赛得分 7 9 10 11 13 　　频数 1 2 4 2 1 　　
复制链接

扫一扫