参考:https://www.cnblogs.com/tsingke/p/4774238.html
一、平均值mean,众数mode,中值median 和 标准差stddev
均值,众数,中位数,标称差:
- 均值是就全部数据计算的,它具有优良的数学性质,是实际中应用最广泛的集中趋势测度值.其主要缺点是易受数据极端值的影响,对于偏态分布的数据,均值的代表性较差.作为均值变形的调和平均数和几何平均数,是适用于特殊数据的代表值,调和平均数主要用于不能直接计算均值的数据,几何平均数则主要用于计算比率数据的平均数,这两个测度值与均值一样易受极端值的影响.
- 众数是一组数据分布的峰值,是一种位置代表值.其优点是易于理解,不受极端值的影响.当数据的分布具有明显的集中趋势时,尤其是对于偏态分布,众数的代表性比均值要好.其缺点是具有不唯一性,对于一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数.
mode代表密度函数最大的点。维基百科上的说明:Mode (statistics)。众数是一组数据中出现次数最多的那个数。
- 中位数是一组数据中间位置上的代表值.其特点是不受数据极端值的影响.对于具有偏态分布的数据,中位数的代表性要比均值好.
在一组排好序数据中,数据数量为奇数,则中值为中间的那个数。 如果数据数量为偶数,则中值为中间的那两个数值的平均值。
举例: 中值能揭示平均值掩盖的真相。 比如在某个国企中,如果最高领导层的工资极高,大部分职工工资比较低的情况下,中值则比较低。
看一组数据,比较一下均值,众数和中值的不同。
类型 | 描述 | 例子 | 结果 |
---|---|---|---|
算术均值Arithmetic mean | 数据和除以数据的数量: | (1+2+2+3+4+7+9) / 7 | 4 |
中值Median | 中间的那个值,把数据分成大小两半 | 1, 2, 2, 3, 4, 7, 9 | 3 |
众数Mode | 频度最大的那个数 | 1, 2, 2, 3, 4, 7, 9 | 2 |
看一下下面的两种对数正态分布中三个值的情况。
- 标准差(Standard Deviation),在概率统计中最常使用作为统计分布程度(statistical ... 一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表 ... 标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。
标准偏差,计算公式为:
在概率统计中最常使用作为统计分布程度(statistical dispersion)上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。
标准计算公式:
假设有一组数值X1,X2,X3,......XN(皆为实数),其平均值(算术平均值)为μ,
标准差也被称为标准偏差,或者实验标准差,公式为。