第五章 如何正确展示你的数据
5.1 均数和中位数——你被平均了吗
如果数据围绕均数均匀的波动,可以用均数来描述;否则最好用中位数来描述
正态分布的数据用平均数;偏态分布的数据最好用中位数来描述
5.2 方差与标准差——变异的度量
离均差平方和(Sum of Squares of deviations from mean,SS)
- 离均差:偏离均数之差,也就是每个数值分别与均数相减之差
- 离均差平方和:对每个差值求其平方然后相加的总和
- 有缺点:数据越多,离均差平方和一般也越大。如果两组数据样本个数不一样,容易有偏差
方差
- 对离均差平方和求平均数,也就是方差
- 缺点:是一个平方后的值,对于一个指标而言,没有意义
标准差
- 对方差求平方根
5.3 自由度——你有多少自由活动的范围
方差公式:总体方差,除以n;样本方差,除以n-1
样本数据估计总体方差时,如果除以n,得到的不是总体方差的无偏估计;而以n-1为分母,得到的才是总体方差的无偏估计
这里所说的n-1,就是自由度
自由度和数据的例数有关,是计算样本统计量时能够自由取值的数值的个数,一般用df表示
有效例数不足,也就是不满秩矩阵?!
5.4 百分位数——利用百分数度量相对位置
相对位置
- 一个数在所有数据中大概处在什么位置上,比如说排第几名,就是相对位置。
- 相对位置有两个指标:
- 百分位数
- Z值
百分位数
- 第P百分位数表示,数据中有p%位于左边(比它小),有(1-p%)位于右边(比它大)
- 特殊的值
- 第100百分位数就是最大值,第0百分位数就是最小值
- 第50百分位数,就是中位数
- 第25百分位数就是下四分位数,Q1来表示;第75百分位数就是上四分位数,Q3来表示
- Q3-Q1 称为四分位数间距(Interquartile Range),IQR
- “五数概括”:最大值、最小值、第25百分位数、中位数、第75百分位数。这五个数展示在一张图中就是箱线图(Box Plot)
大于Q3+1.5IQR 或者小于Q1-1.5IQR,都视为异常值
5.5 如何比较苹果和橘子——利用Z值度量相对位置
我们通常所说的标准化就是计算Z值:Z= x-u / σ,其中:u表示均数,σ表示标准差。反映了某个值x偏离均数u的标准差倍数
中心化:每个原始数据减去均数后得到的值,相对于标准化的分子部分
Z值常用得两个应用:
- 比较不同单位的指标
- 判断异常值
5.6 某百岁老人调查报告说:少运动才能活得久——谈一下比例和率
分清自己要研究什么,有些是研究百分比,有些是要研究率。分清百分比和率:
- 百分比:是一个静态指标,在一个群体中某种状态所占的百分比
- 率:是一个动态指标,在一个群体中某种状态所占的百分比
5.7 在文章中如何正确展示百分比
结合分析的目的,找准分析的维度,明确分组变量是什么、分析变量是什么,一般情况下,分组变量内百分比的合计为100%。
找到对的方式来展示百分比,才能有正确的分析结果