描述统计学 数值方法
描述统计学 数值方法
数值度量:位置 离散程度 形态 相关程度
数值度量:位置 离散程度 形态 相关程度
位置
位置
平均数 : x¯=∑xin x ¯ = ∑ x i n
加权平均数: x¯=∑wixi∑wi x ¯ = ∑ w i x i ∑ w i
中位数:将数据从小到大排序
对奇数个观测数 中位数是中间的数值
对偶数个观测数 中位数是中间两个数值的平均数
几何平均数: x¯g=(x1x2...xn)1/n x ¯ g = ( x 1 x 2 . . . x n ) 1 / n
在财务、投资和银行业的问题中, 几何平均数的应用尤为常见。当你想确定过去几个连续时期的平均变化率时 都能应用几何平均数。几何平均数可以用于发生在所有时间长度的连续时期的任何数量的变化率
众数: 出现次数最多的数据
百分位数: 提供数据如何散布在从最小值到最大值上的区间上的信息
i=(p100)n i = ( p 100 ) n
若i不是整数 则向上取整数 大于i的下一个整数表示第p百分位数的位置
若i是整数 则第p百分位数是第i项和第(i+1)项数据的平均值
四分位数:
Q1 Q 1 = 第一四分位数 或第25百分位数
Q2 Q 2 = 第50百分位数
Q3 Q 3 = 第75百分位数
注释:
1. 当数据集中含有极端值时 使用中位数作为中心位置的度量比平均数更合适
2. 其他常用百分位数是五分位数和十分位数
变异程度的度量(离散程度的度量)
极差: 极差 = 最大值 - 最小值
四分位数间距: IQR=Q3−Q1 I Q R = Q 3 − Q 1
方差:所有数据对变异程度所做的一种度量
总体方差: σ2=∑(xi−μ)2N σ 2 = ∑ ( x i − μ ) 2 N
样本方差: s2=∑(xi−x¯)2n−1 s 2 = ∑ ( x i − x ¯ ) 2 n − 1
标准差:是方差的正平方根 标准差与数据的单位相同
s=s√2 s = s 2
σ=σ−−√2 σ = σ 2
标准差系数: (标准差平均数×100) ( 标 准 差 平 均 数 × 100 )
说明 样本标准差仅为样本平均数的?%
分布形态、相对位置的度量以及异常值的检测
分布形态:左偏- 右偏+ 对称0
偏度计算: 偏度 = n(n−1)(n−2)∑(xi−x¯s)3 n ( n − 1 ) ( n − 2 ) ∑ ( x i − x ¯ s ) 3
z-分数 数据集中的数值的相对位置
zi=xi−x¯s z i = x i − x ¯ s 标准化数值
x¯
x
¯
为样本平均数
s
s
为样本标准差
切比雪夫定理:
与平均数的距离在z个标准差之内的数据项所占比例至少为
其中z是大于1的任意实数
经验法则: 对于具有钟形分布的数据
大约68%的数据值与平均数的距离在1个标准差之内
大约95%的数据值与平均数的距离在2个标准差之内
几乎所有的数据与平均数的距离在3个标准差之内
异常值的检测
方法一:标准化数值来确定异常值
方法二:以第一四分位数和第三四分位数以及四分位数间距 计算上限 下限
五数概括法
最小值 第一四分位数 中位数 第三四分位数 最大值
两变量间关系的度量:两变量间线性关系度量的协方差和相关系数
协方差
样本协方差 sxy=∑(xi−x¯)(yi−x¯)n−1 s x y = ∑ ( x i − x ¯ ) ( y i − x ¯ ) n − 1
协方差解释: sxy s x y 为正值表示x和y之间存在正的线性关系:随着x的值的增加,y的值也增加 如果 sxy s x y 为负值 则表示x和y为负的线性相关关系:随着x的值的增加 y的值减少
局限性:协方差值受数值单位影响 假设研究人体重与身高关系 身高用厘米测出数值比英寸大得多 避免这种情况 使用相关系数
相关系数
皮尔逊积矩相关系数:样本数据
rxy=sxysxsy r x y = s x y s x s y
rxy r x y 表示样本相关系数 sxy s x y 表示样本协方差 sysx s y s x 分别表示x的样本标准差 y的样本标准差
总体数据
ρxy=σxyσxσy ρ x y = σ x y σ x σ y
ρxy ρ x y 表示总体相关系数 σxy σ x y 表示总体协方差 σyσx σ y σ x 分别表示x的总体标准差 y的总体标准差