《深入浅出统计学》要点总结
统计学作为数据分析、数据挖掘、机器学习等众多研究方向的基石,其重要性不言而喻。谁都想学好,但学习过程中,随之而来的各种术语、大量公式,常常会磨灭我们的学习热情。笔者在大学和研究生阶段也曾学习过相关课程,但觉得很枯燥。最近读了Dawn Griffiths的《深入浅出统计学》一书,发现原来乏味的统计理论也能像说故事一样娓娓道来。纵览全书,我总结了一些要点知识如下。
1.信息图形化:第一印象
1.统计的研究步骤
① 搜集数据
② 分析
③ 下结论
2.直方图与条形图有什么不一样的地方?
直方图与条形图外观相似,但有两个重要区别。第一,每个长方形面积与频数成比例;第二,图上的长方形之间没有间隔。
3.直方图向下取整的例子
年龄。以 19 岁为例,即使过了 19 岁,但不到 20 岁,也会把他归入 19 岁。
4.什么是频数密度?
在直方图中,面积等于频数,所以长方形的高度 = 频数 / 长方形的宽度。而频数密度指的是分组数据中的频数的密集度。频数密度 = 频数 / 组距。
5.可视化图形的选择
条形图、直方图、折线图
2.集中趋势的量度:中庸之道
- 均值是平均数的一种。
- 异常值会导致数据偏斜,对均值的影响比较大。
- 其他类型的平均数包括熟悉的中位数、众数等。
3.分散性与变异性的量度:强大的“距”
1.什么是全距?
上界 - 下界,即数据集中的最大数减去最小数。异常值对全距影响的可能性较大。
2.什么是迷你距?
不再度量整个数据集的全距,而是找出全距的一部分——不包含异常值的部分。
3.什么是四分位距?
每两个四分位数之间的距被称为四分位距。
四分位距 = 上四分位数 - 下四分位数。
可以利用四分位距剔除异常值。
4.什么是百分位数?
将一批数据按百分比进行分割,则起分割作用的数值被称为百分位数。
5.如何读懂箱型图?
箱线图显示数据的全距(上界、下界)、四分位距(上四分位数、下四分位数)、中位数。
6.量度变异性的方法
方差、标准差
7.为什么要使用标准分?
标准分,常用 z z z 表示,为我们提供了一种对不同数据集的数据进行比较的方法
4.概率计算:把握机会
1.什么是概率空间?
S S S 被称为概率空间,或称为样本空间,是表示所有可能结果的一种简便表示法。
2.对立事件和互斥事件有什么区别?
- 对立事件:事件 A A A、 B B B 中必定而且只有一个发生。除了 A A A 就是 B B B,没有第三种可能。
- 互斥事件:事件 A A A 与事件 B B B 不可能同时发生,强调的是“不同时”发生。
3.什么是条件概率?
- 条件概率用来度量与其他事件的发生情况有关的某个事件的概率。
- 概率树能够很方便地处理与条件概率相关的问题。
4.全概率公式
P ( B ) = P ( A ) × P ( B ∣ A ) + P ( A ′ ) × P ( B ∣ A ′ ) P(B) = P(A) × P(B | A) + P(A') × P(B | A') P(B)=P(A)×P(B∣A)+P(A′)×P(B∣A′)
5.贝叶斯定理(全概率公式是贝叶斯定理的分母)
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) = P ( A ) × P ( B ∣ A ) P ( A ) × P ( B ∣ A ) + P ( A ′ ) × P ( B ∣ A ′ ) P(A | B) = \frac{P(A∩B)}{P(B)} = \frac {P(A) × P(B | A)}{P(A) × P(B | A) + P(A') × P(B | A')} P(A∣B)=P(B)P(A∩B)=P(A)×P(B∣A)+P(A′)×P(B∣A′)P(A)×P(B∣A)
6.什么是相关事件?什么是独立事件?
如果几个事件互有影响,则为相关事件。如果互不影响,则为独立事件。
对于独立事件有: P ( A ∣ B ) = P ( A ) P(A | B) = P(A) P(A∣B)=P(A) P ( A ∩ B ) = P ( A ) × P ( B ) P(A ∩ B)=P(A)×P(B) P(A∩B)=P(A)×P(B)
5.离散概率分布的运用:善用期望
1.什么是期望?
期望指出一个变量的典型值或平均值。
2. E ( X 1 + X 2 ) E(X_1+X_2) E(X1+X2) 和 E ( 2 X ) E(2X) E(2X) 的区别?
X 1 + X 2 X_1+X_2 X1+X2 表示你正在考虑 X X X 的两个观测值; 2 X 2X 2X 表示你有一个观测值,但其可能数值翻倍。即:独立观测和线性变化的区别。
6.排列与组合:排序、排位、排
排列与组合的区别?
排列与顺序有关,组合与顺序无关。
7.几何分布、二项分布及泊松分布:坚持离散
1.几何分布
P ( X = r ) = p q r − 1 P(X=r) = pq^{r-1} P(X=r)=pqr−1
2.什么时候使用几何分布?
几何分布进行一系列相互独立的试验;每一次试验都既有成功的可能,也有失败的可能,且单次试验的成功概率相同;主要是为了知道取得第一次成功需要进行多少次试验。
3.二项分布
P ( X = r ) = C n r × p r × q n − r P(X=r) = C_n^r × p^r × q^{n-r} P(X=r)=Cnr×pr×qn−r
4.几何分布和二项分布的区别?
- 相同点:处理的都是独立实验,每次试验或是成功或是失败。差别在于实际要求的结果。
- 不同点:如果实验次数固定,求成功一定次数的概率,则需使用二项分布;如果感兴趣在取得第一次成功前需要实验多少次,则需使用几何分布。
5.泊松分布
单独事件在给定区间内随机、独立地发生。已知该区间内的事件平均发生次数,且为有限数值。通常用
λ
λ
λ 表示。
P
(
X
=
r
)
=
e
−
λ
λ
r
r
!
P(X=r) = \frac{e^{-λ}λ^r}{r!}
P(X=r)=r!e−λλr
6.什么时候可以用泊松分布近似替代二项分布?
二项分布中, n n n 足够大, p p p 足够小。
8.正态分布的运用:保持正态
1.概率密度函数
通过它可以求出一个数据范围内的某个连续变量的概率,它向我们指出该概率分布的形状。
2.如何理解正态分布(高斯分布)?
正常情况下的形态。
3.正态概率计算步骤?
① 确定分布与范围
② 使其标准化
③ 查找概率
9.再谈正态分布的运用:超越正态
1.什么时候可以用正态分布近似替代二项分布?
某些情况下,二项分布的形状看上去和正态分布的形状十分相似,这样的情况下,可以用正态分布近似替代二项分布。但是因为二项分布是离散分布,而正态分布则是连续分布,所以近似的结果存在误差,需要进行连续性修正。
2.正态分布和泊松分布都能作为二项分布 X ~ B ( n , p ) X ~ B(n,p) X~B(n,p) 的近似,一般选用哪一个?
- 若 n p > 5 np>5 np>5 且 n q > 5 nq>5 nq>5,则使用正态分布代替二项分布;
- 若 n > 50 n>50 n>50 且 p < 0.1 p<0.1 p<0.1,则可以使用泊松分布近似替代二项分布。
3.什么时候可以用正态分布近似替代泊松分布?
随着 λ λ λ 变大,泊松分布图的外形看起来越来越像正态分布。曲线的主要部分呈合理对称,近似光滑曲线,与正态分布接近。更具体来说,如果 X ~ P 0 ( λ ) X~P_0(λ) X~P0(λ) 且 λ > 15 λ>15 λ>15,则可以用 X ~ N ( λ , λ ) X~N(λ,λ) X~N(λ,λ) 进行近似。
10.统计抽样的运用:抽取样本
1.无偏样本、偏倚样本
无偏样本可以代表目标总体,即该样本与总体样本具有相似特性,我们可以利用这些相似特性对总体本身进行判断。
2.抽样空间、目标总体、抽样单位
抽样空间列出总体中的所有独立单位,被作为样本的基础,但它并不是样本本身,因为我们不会抽取抽样空间中的所有对象。
目标总体指的是正在研究的、并且打算为其采集结果的群体。
3.如何选择样本?
简单随机抽样、分层抽样、整群抽样、系统抽样
11.总体和样本的估计:进行预测
1.总体均值、样本均值、点估计量
样本均值被称为总体均值的点估计量,作为一个基于样本数据的计算结果,它给出了总体均值的良好估计。
2.概率和比例
可以认为概率和比例互有关系。总体的成功数目除以总体大小即等于比例,这个算法和用于计算二项分布的概率的算法是一样的。
3.什么是比例的抽样分布?
比例的抽样分布其实是一种概率分布,由所有大小为 n 的可能样本的各种比例构成。如果我们知道这些比例的分布,就能用这个分布求出某一个特定样本的比例的发生概率。
比如,我们能够利用比例的抽样分布求出 “一大盒糖球中的红色糖球比例至少为40%” 的概率。
4.均值的抽样分布,样本均值的概率分布
均值的抽样分布为我们提供了一种计算样本均值的概率的方法。
5.中心极限定理
中心极限定理是指:如果从一个非正态总体 X X X 中取出一个样本,且样本很大,则样本均值 X ‾ \overline X X 的分布近似为正态分布。
如果总体的均值和方差为 μ μ μ 和 σ 2 σ^2 σ2,且 n n n 很大,例如大于30,则: X ‾ ~ N ( μ , σ 2 / n ) \overline X ~ N(μ,σ^2/n) X~N(μ,σ2/n)
使用中心极限定理求出的概率与样本均值有关,而与样本中的数值无关,不需要进行任何连续性修正。
12.置信区间的构建:自信地猜测
1.求解置信区间的步骤:
① 选择总体统计量
② 求出其抽样分布
③ 决定置信水平
④ 求出置信上下限
2. t t t 分布
当总体符合正态分布, σ 2 σ^2 σ2 未知,且可供支配的样本很小时, X ‾ \overline X X 符合 t t t 分布。
t t t 分布是外形光滑、对称的曲线,确切形状取决于样本大小。当样本很大时,t 分布外形很像正态分布;当样本很小时,曲线较为扁平,有两条粗粗的尾巴。它只有一个参数 ν ν ν, ν = n − 1 ν = n-1 ν=n−1。 n n n 为样本大小, ν ν ν 被称为自由度。
13.假设检验的运用:研究证据
1.假设检验
假设检验,又称显著性检验。
2.假设检验的功效
在 H 0 H_0 H0 为假的情况下拒绝 H 0 H_0 H0 的概率
3.假设检验的步骤:
① 确定要进行检验的假设
② 选择检验统计量
③ 确定用于做决策的拒绝域
④ 求出检验统计量的 p 值
⑤ 查看样本结果是否位于拒绝域内
⑥ 作出决策
4.备择假设
与原假设对立的断言
5.单尾检验、双尾检验
单尾检验即检验的拒绝域落在可能的数据集一侧,双尾检验即拒绝域一分为二位于数据集的两侧。
6.第一类错误、第二类错误
- 第一类错误: H 0 H_0 H0真,但拒绝 H 0 H_0 H0
- 第二类错误: H 0 H_0 H0假,但接受 H 0 H_0 H0
14. χ 2 χ^2 χ2分布:继续探讨······
1. χ 2 χ^2 χ2分布的两个主要用途
① 检验拟合优度,也就是可以检验一组给定的数据与指定分布的吻合程度。
② 检验两个变量的独立性
15.相关与回归:我的线条如何?
1.最小二乘回归法
最小二乘回归法是一种数学方法,可用一条最佳拟合线将一组二变量数据拟合,通过将公式为 y = a + b x y=a+bx y=a+bx 的一条直线与一组数值相拟合,使得误差平方和最小。
2.相关系数
用相关系数衡量直线与数据的拟合度
当然,上面所提到的只是统计学知识入门,如果希望对统计学有更加深入的理解,需要进一步的学习。水滴石穿非一日之功,与君共勉!