哪些数学特征可以用来描述一组数据

最新推荐文章于 2024-03-01 15:43:35 发布

村中少年

最新推荐文章于 2024-03-01 15:43:35 发布

阅读量6.2k

点赞数 4

文章标签：期望方差峰度系数变异系数

本文链接：https://blog.csdn.net/javajiawei/article/details/81483898

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

在机器学习的过程中，一个很重要的问题就是特征的提取。提取训练数据的特征，决定着最终学习的效果。那么一组数据，比如一组表示身高的一维数组如何用数学特征加以描述呢。使用到如下的python模块可以快速的计算相应的特征值：

import numpy as np
from scipy.stats import skew
from scipy.stats import kurtosis

以下就列举一些常见的数学特征：

trainDataARow = [1,2,3,4,5,6]
tem = np.array(trainDataARow)

上述表示输入是一个一维数组：

数学期望：就是该组数据的平均值， np.std(tem)可以求得。

方差：所有数值和期望差值平方和的平均数。反映的是该组数据的与期望的偏离程度。

标准差：标准差是方差的平方根。可以看到标准差和期望的量纲相同（方差先平方，然后在开方），反映该组数据的波动情况。数值越大，说明其振幅越大。比值方差更加具有实际的意义，np.mean(tem)可以求得。

中位数：将该组数据进行排序（从小到大的序列，或者从大到小的序列），其中间位置的数就是其中位数。如果序列位偶数，则取中间两个数的平均数作为其中位数，np.percentile(tem, 50)可以求得。

众数：该组数据中出现频率最高的数值即众数。

极差：该组数列的最大值与最小值之间的差值。该值越小，说明该组数据分布比较集中；越大的话，可能是数据比较分散，也有可能是两段有一些异常点。

中程数：该组数列中最大值和最小值的平均数。

峰度系数：描述分布尖削程度以及尾部粗细特征，kurtosis(tem)可以求得。

偏度系数：描述分布偏离对称性的程度，skew(tem)可以求得。

变异系数：标准差/期望，由于通常标准差以及期望都是带有单位的，比如测量一组身高数据标准差为10cm，期望180cm。另一组体重数据比标准差为5kg，期望为100kg。由于单位不同，直接比较其期望和方差大小皆不合适，取其比值，消除量纲的影响，用来衡量数据的波动情况。由于体重的变异系数较小，说明体重更加的集中，np.std(tem)/np.mean(tem)可以求得。

分位数比值：分为数就是将该数组（例如从达到小）进行排序，中位数就是0.5分位数，记为q50。中位数前半部分数据的中位数就是0.25分位数，记为q25；同理中位数后半部分数据的中位数就是0.75分位数，记为q75。分为数比比值就是(q75-q50)/(q50-q25)，这个描述的是在q75至q25这一范围内的数据离散状况，通过下述可以求得。

q25 = np.percentile(tem, 25)
q50 = np.percentile(tem, 50)
q75 = np.percentile(tem, 75)
(q75-q50)/(q50-q25)

上述就是在可以表示一维数据的一些数学统计特征，实际应用的过程中都可以计算加以尝试。

本文为CSDN村中少年原创文章，转载记得加上小尾巴偶，博主链接这里。

村中少年

关注

4
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录