均值-中位数-众数-极差-中程数-方差-标准差-变异系数

最新推荐文章于 2024-06-05 20:40:21 发布

baidu-liuming

最新推荐文章于 2024-06-05 20:40:21 发布

阅读量3.9k

点赞数 3

分类专栏：统计指标文章标签：标准差

统计指标专栏收录该内容

3 篇文章

订阅专栏

一、数据挖掘&算法前奏之data exploration做什么

一个数字序列，如何通过简单的统计指标，直接&直观地描述这个数字序列的一些基本属性，是数据处理与理解的刚需。做数据挖掘和机器学习以及任何与数字序列相关的算法工作之前，一般，我们都做一做data exploration的工作，意思大概就是说，要首先看看这个数字序列的：
基本统计指标是什么，
有什么明显的数字趋势可见，或者符合什么明显的概率分布，
多维特征的话，维度彼此之间，有什么简单明了的关系。
在可汗学院公开课：统计学> 均值中位数众数和可汗学院公开课：统计学> 极差中程数

第1节和第2节中，就是讲data exploration中的第一步：数字序列的基本统计指标是什么。

二、基本统计有哪些，怎么定义的

简单来说（以数字序列X为例）：

mean（均值） = 算术平均值 = （x1 + x2 + … + xn) / n
median(中位数） = 对X按值排序（从大到小或从小到大），取数列排序后处于中间位置的数xi；当序列X的元素个数为偶数时，则有2个数字同时处于中间位置，此时中位数取这中间2个数的平均值
mode（众数） = 序列X中，出现频率最多的那个数
range（极差或全距） = 数列X中最大值与最小值之间的差值，用于描述X的数字分散程度，越小则数字之间越紧密
midrange（中程数） = 数列X中（最大值 + 最小值）/2

三、优缺点和应用场景，集中趋势和发散趋势

上述5个基本统计指标，其实，都是用来描述数字序列X的某种意义上的数字集中趋势的，只是角度不同而已（1、2、3是从收敛的角度、4、5是从发散的角度）。各自的特点，或者说优缺点以及应用场景如下:

	优点	缺点	应用场景
均值	最具有良好的数学性质，对于生活中常见的较为对称的以正态分布为基础的各种现象，有广泛的应用。而且考虑了数列中每个元素的情况，信息量全	容易受到数列X中极端值（极大或极小）的影响，比如中国城市家庭平均资产247万人民币？西南财大报告引热议中的笑话	数字序列X表现出较为明显的对称分布（正态)的情况下，如身高、智力等分布。当数据呈对称分布或接近对称分布时，均值、中位数、众数相等或接近相等，这时应选择均值作为集中趋势的代表值，因为均值包含了全部数据的信息
中位数	中间位置上的代表值。其特点是不受数据极端值的影响	有可能中位数不在数字序列中（数列元素个数为偶数时），造成理解上的困惑	当一组数据中的个别数据变动较大时，可用中位数描述其趋势。对于偏态分布，具有较好的应用，比如互联网与生物领域常见power-law分布，与之对应的，还有xx分位点的说法，常见的有1Q,3Q分位点，即25%、75%分位点。
众数	简单易理解，不受数据极端值的影响	可能不唯一性，一个数字序列，可能有多个众数（频次相同且最大）；或者没有众数（数字序列中每个数都只出现1次）	当一组数据中某些数据重复出现较多的场景。特别适用于偏态分布，对于对称分布也可以应用
极差	简单易理解，计算简单明了	受数据极端值影响，反应数列离散程度也较粗糙，不能反应数列内容的发散情况，即使样本不大，极差带来的发散误差也较大	只能用于粗略地说明数据的变动范围