

数据分布特征的测度

集中趋势



权数
权数可以是绝对数形式,也可以是比重形式。

平均数为了排除极端值的干扰,可计算切尾均值。

几何平均数(Geometric mean)
几何平均数有简单几何平均数和加权几何平均数之分。
-简单几何平均数

-加权几何平均数


众数
众数是一组数据中出现频数最多、频率最高的变量值,常用Mo表示。

1.一组数据中出现次数最多的变量值
2.适合于数据量较多时使用
3.不受极端值的影响
4.一组数据可能没有众数或有几个众数
5.主要用于分类数据,也可用于顺序数据和数值型数据
中位数
将总体各单位标志值按大小顺序排列后,指处于数列中间位置的标志值,用Me表示。
中位数所在的位置为:
1.不受极端值的影响在有极端数值出现时,中位数作为分析现象中集中趋势的数值,比平均数更具有代表性
2.主要用于顺序数据,也可用数值型数据,但不能用于分类数据
3.各变量值与中位数的离差绝对值之和最小
四分位数
1.对数据进行排序,然后确定四分位数所在的位置,该位置上的数据就是四分位数
2.25%和75%位置上的四分位数位置的确定方法为:
25%分位数位置:
75%分位数位置:

还有:十分位数、百分位数
众数、中位数和算术平均数的关系

众数、中位数、平均数的特点和应用
1.众数
- 不受极端值影响
- 具有不惟一一性
- 数据分布偏斜程度较大且有明显峰值时应用
2.中位数不受极端值影响
- 数据分布偏斜程度较大时应用
3.平均数
- 易受极端值影响
- 数学性质优良
- 数据对称分布或接近对称分布时应用
总体分布离散程度的测定
1.极差
指所研究的数据中,最大值与最小值之差,又称全距。
2.四分位差
3.方差 4.标准差
总体时的方差,标准差
未分组资料时,方差的公式为:

标准差的公式为:

分组资料时,方差的公式为:

标准差的公式为:

样本方差和样本标准差



5.离散系数
离散系数:标准差与其相应的均值之比,用于比较两组数据的波动程度
计算公式为

6.标准分数
数据的标准化:
1.对某一个值在一组数据中相对位置的度量
2.可用于判断一-组数据是否有离群点
3.用于对变量的标准化处理
4.均值等于0,方差等于1
协方差与相关系数
- 二元随机变量(X,Y ):
样本协方差 :
Y样本相关系数:
随机样本
样本协方差 :

样本相关系数 :
协方差与独立性
-
X和Y是不相关/线性独立的
- 如果X和Y服从二元正态分布,那么
X和Y是独立的
-
是在样本空间中,两个经过中心化的n维向量
和
的夹角余弦
- 不相关的变量对应的n维样本向量是正交的( orthogonal )
分布形状的度量

偏态系数
1.Pearson偏度系数是以标准差为度量单位计算的众数与算数平均数的离差,其计算公式是:
SK通常取值为-3~+3之间,其绝对值大,表明偏斜程度大反之表明偏斜程度越小。
- 当SK=0时,分布为对称分布;
- SK<0时,分布呈左偏分布,或称负偏态;
- SK>0时,分布呈右偏斜分布,或称为正偏态
2.矩法偏度
Pearson偏度系数的思想比较容易理解,但精度程度不高。矩法偏度计算方法能够弥补这-不足,其计算公式是:
- 当SK=0时,分布为对称分布;
- SK<0时,分布呈左偏分布,或称负偏态;
- SK>0时,分布呈右偏斜分布,或称为正偏态。
峰态系数
在社会经济现象中,许多变量数列的分布曲线与正态分布曲线相比,其顶部的形态会有所不同,而这种差异通常具有重要的社会经济意义。
峰态系数就是反映数据分布峰值的高低,可以用来说明数据分布曲线的顶端尖削或扁平程度。以正态分布为参照标准,比正态分布尖削的分布为尖峰分布,比正态分布扁平的分布为平顶分布。

峰态系数
峰度的测量指标,常常可用标准差的四次方除以四阶中心矩的方法来计算,计算公式是:

- 当β=3时,数据的分布峰度表现为与正态相同;
- 当β>3时,为尖顶分布,表明数据分布曲线的顶部较正态分布曲线更为陡峭,且越大,顶部就越陡峭;
- 当β<3时,为平顶曲线,表明数据分布在众数附近比较分散,使得频数分布曲线的峰顶较正态分布曲线平缓,且值越小,顶部就越加平坦。