读《白话统计》笔记——第五章

本章探讨了如何有效地展示数据,包括均数与中位数的选择、方差和标准差的计算、自由度的理解、百分位数的运用以及Z值在比较和异常值检测中的角色。同时,讲解了比例和率的区别,并强调了在文章中正确展示百分比的重要性。
摘要由CSDN通过智能技术生成

第五章 如何正确展示你的数据

5.1 均数和中位数——你被平均了吗

如果数据围绕均数均匀的波动,可以用均数来描述;否则最好用中位数来描述

正态分布的数据用平均数;偏态分布的数据最好用中位数来描述

5.2 方差与标准差——变异的度量

离均差平方和(Sum of Squares of deviations from mean,SS)

  • 离均差:偏离均数之差,也就是每个数值分别与均数相减之差
  • 离均差平方和:对每个差值求其平方然后相加的总和
  • 有缺点:数据越多,离均差平方和一般也越大。如果两组数据样本个数不一样,容易有偏差

方差

  • 对离均差平方和求平均数,也就是方差
  • 缺点:是一个平方后的值,对于一个指标而言,没有意义

标准差

  • 对方差求平方根
5.3 自由度——你有多少自由活动的范围

方差公式:总体方差,除以n;样本方差,除以n-1

样本数据估计总体方差时,如果除以n,得到的不是总体方差的无偏估计;而以n-1为分母,得到的才是总体方差的无偏估计

这里所说的n-1,就是自由度
自由度和数据的例数有关,是计算样本统计量时能够自由取值的数值的个数,一般用df表示

有效例数不足,也就是不满秩矩阵?!

5.4 百分位数——利用百分数度量相对位置

相对位置

  • 一个数在所有数据中大概处在什么位置上,比如说排第几名,就是相对位置。
  • 相对位置有两个指标:
    • 百分位数
    • Z值

百分位数

  • 第P百分位数表示,数据中有p%位于左边(比它小),有(1-p%)位于右边(比它大)
  • 特殊的值
    • 第100百分位数就是最大值,第0百分位数就是最小值
    • 第50百分位数,就是中位数
    • 第25百分位数就是下四分位数,Q1来表示;第75百分位数就是上四分位数,Q3来表示
    • Q3-Q1 称为四分位数间距(Interquartile Range),IQR
  • “五数概括”:最大值、最小值、第25百分位数、中位数、第75百分位数。这五个数展示在一张图中就是箱线图(Box Plot)
    在这里插入图片描述
    大于Q3+1.5IQR 或者小于Q1-1.5IQR,都视为异常值

5.5 如何比较苹果和橘子——利用Z值度量相对位置

我们通常所说的标准化就是计算Z值:Z= x-u / σ,其中:u表示均数,σ表示标准差。反映了某个值x偏离均数u的标准差倍数

中心化:每个原始数据减去均数后得到的值,相对于标准化的分子部分

Z值常用得两个应用:

  • 比较不同单位的指标
  • 判断异常值
5.6 某百岁老人调查报告说:少运动才能活得久——谈一下比例和率

分清自己要研究什么,有些是研究百分比,有些是要研究率。分清百分比和率:

  • 百分比:是一个静态指标,在一个群体中某种状态所占的百分比
  • 率:是一个动态指标,在一个群体中某种状态所占的百分比
5.7 在文章中如何正确展示百分比

结合分析的目的,找准分析的维度,明确分组变量是什么、分析变量是什么,一般情况下,分组变量内百分比的合计为100%。

找到对的方式来展示百分比,才能有正确的分析结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值