3.1 位置的度量
因为平均数、加权平均数、中位数较为简单,所以不加以更深的论述,着重说一下几何平均数。
几何平均数
几何平均数是一种位置度量,它是n个数值乘积的n次方根。
在财务、投资和银行业的问题中,几何平均数的应用尤为常见,当你任何时候想要确定过去几个连续时期的平均变化率时,都能应用几何平均数。其他通常的应用包括物种总体、农作物产量、污染水平以及出生率和死亡率的变化。注意,几何平均数也可以用于发生在所有时间长度的连续时期的任何数量的变化率。除了年变化率外,几何平均数也常常用于发现季度、月、周以及天的平均变化率。
3.2 变异程度的度量
方差
如果数据来自整体,则离差平方的平均值称为总体方差,总体方差用希腊字母σ2表示。对于有N个观察值的总体,用μ表示总体平均数,总体方差的公式如下:
在大多数统计应用中,需要分析样本数据。当我们计算样本方差时候,更希望用它来估计总体方差σ2。虽然关于样本方差的详细解释已经超出了本书的范围,但是可以证明,如果样本平均数的离差平方和除以n-1,而不是n时,所得到的的样本方差是总体方差的无偏估计。鉴于此用s2表示样本方差,公式如下:
标准差
标准差,在概率统计中最常使用作为统计分布程度上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。公式如下
标准差系数
一般地,在比较具有不同标准差和不同平均数的变量的变异程度时,标准差是一个很有用的统计量。σ为标准差;x 为平均值,公式如下。
3.3 分布形态、相对位置的度量以及异常值的检测
分布形态
计算样本数据偏度的公式为
Z-分数
相对位置的度量值能够帮助我们确定一个特殊的数值距平均数有多远。X:原始数据,s标准差,剩下那个符号是平均数
切比雪夫定理
与平均数的距离在z个标准差之内的数据项所占比例至少为(1-1/z^2),其中z是大于1的任意实数。
切比雪夫定理能使我们指出与平均数的距离在某个特定个数的标准差之间的数据值所占的比例。
经验法则
人们发现许多数据集具有类似图3-5所对称的峰形或钟型分布。当数据被认为近似于这种分布时,就可以运用经验法则来确定与平均数的距离在某个特定个数的标准差之内的数据值所占的比例。
异常值的检测
有时数据集中会包含一个或多的数值异常大或多个一场小的观测值,这样的极端值称为异常值。
①标准化数值(z-分数)可以用来确认异常值。我们建议把z-分数小于-3或大于+3的任何数值都视为异常值。然后,对它们的准确性进行检查,以确定他们是否属于数据集。
②第一四分位数和第三四分位数(Q1和Q3)以及四分位数间距(IQR)为依据
下限 = Q1 - 1.5 X IQR
上限 = Q3 + 1.5 X IQR
3.4 五数概括法和箱型图
3.4.1 五数概括法
在五数概括法中,使用下面五个数来汇总数据:
(1)最小值
(2)第一四分位数(Q1)
(3)中位数(Q2)
(4)第三四分位数(Q3)
(5)最大值
3.4.2 箱型图
箱型图是基于五数概括法的数据图形汇总
3.5 两变量间关系的度量
协方差
协方差(Covariance)是两变量线性关系的度量。期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:
相关系数
皮尔逊积矩相关系数
其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差
样本相关系数的值是一个介于+1~-1之间的数字,越接近于1,表示相关性越强。