【数理统计】《深入浅出统计学》要点总结

统计学作为数据分析、数据挖掘、机器学习等众多研究方向的基石,其重要性不言而喻。谁都想学好,但学习过程中,随之而来的各种术语、大量公式,常常会磨灭我们的学习热情。笔者在大学和研究生阶段也曾学习过相关课程,但觉得很枯燥。最近读了Dawn Griffiths的《深入浅出统计学》一书,发现原来乏味的统计理论也能像说故事一样娓娓道来。纵览全书,我总结了一些要点知识如下。

1.信息图形化:第一印象

1.统计的研究步骤

① 搜集数据
② 分析
③ 下结论

2.直方图与条形图有什么不一样的地方?

直方图与条形图外观相似,但有两个重要区别。第一,每个长方形面积与频数成比例;第二,图上的长方形之间没有间隔。

3.直方图向下取整的例子

年龄。以 19 岁为例,即使过了 19 岁,但不到 20 岁,也会把他归入 19 岁。

4.什么是频数密度?

在直方图中,面积等于频数,所以长方形的高度 = 频数 / 长方形的宽度。而频数密度指的是分组数据中的频数的密集度。频数密度 = 频数 / 组距。

5.可视化图形的选择

条形图、直方图、折线图

2.集中趋势的量度:中庸之道

  • 均值是平均数的一种。
  • 异常值会导致数据偏斜,对均值的影响比较大。
  • 其他类型的平均数包括熟悉的中位数、众数等。

3.分散性与变异性的量度:强大的“距”

1.什么是全距?

上界 - 下界,即数据集中的最大数减去最小数。异常值对全距影响的可能性较大。

2.什么是迷你距?

不再度量整个数据集的全距,而是找出全距的一部分——不包含异常值的部分。

3.什么是四分位距?

每两个四分位数之间的距被称为四分位距。
四分位距 = 上四分位数 - 下四分位数。
可以利用四分位距剔除异常值。

4.什么是百分位数?

将一批数据按百分比进行分割,则起分割作用的数值被称为百分位数。

5.如何读懂箱型图?

箱线图显示数据的全距(上界、下界)、四分位距(上四分位数、下四分位数)、中位数。

6.量度变异性的方法

方差、标准差

7.为什么要使用标准分?

标准分,常用 z z z 表示,为我们提供了一种对不同数据集的数据进行比较的方法

4.概率计算:把握机会

1.什么是概率空间?

S S S 被称为概率空间,或称为样本空间,是表示所有可能结果的一种简便表示法。

2.对立事件和互斥事件有什么区别?

  • 对立事件:事件 A A A B B B 中必定而且只有一个发生。除了 A A A 就是 B B B,没有第三种可能。
  • 互斥事件:事件 A A A 与事件 B B B 不可能同时发生,强调的是“不同时”发生。

3.什么是条件概率?

  • 条件概率用来度量与其他事件的发生情况有关的某个事件的概率。
  • 概率树能够很方便地处理与条件概率相关的问题。

4.全概率公式

P ( B ) = P ( A ) × P ( B ∣ A ) + P ( A ′ ) × P ( B ∣ A ′ ) P(B) = P(A) × P(B | A) + P(A') × P(B | A') P(B)=P(A)×P(BA)+P(A)×P(BA)

5.贝叶斯定理(全概率公式是贝叶斯定理的分母)

P ( A ∣ B ) = P ( A ∩ B ) P ( B ) = P ( A ) × P ( B ∣ A ) P ( A ) × P ( B ∣ A ) + P ( A ′ ) × P ( B ∣ A ′ ) P(A | B) = \frac{P(A∩B)}{P(B)} = \frac {P(A) × P(B | A)}{P(A) × P(B | A) + P(A') × P(B | A')} P(AB)=P(B)P(AB)=P(A)×P(BA)+P(A)×P(BA)P(A)×P(BA)

6.什么是相关事件?什么是独立事件?

如果几个事件互有影响,则为相关事件。如果互不影响,则为独立事件。

对于独立事件有: P ( A ∣ B ) = P ( A ) P(A | B) = P(A) P(AB)=P(A) P ( A ∩ B ) = P ( A ) × P ( B ) P(A ∩ B)=P(A)×P(B) P(AB)=P(A)×P(B)

5.离散概率分布的运用:善用期望

1.什么是期望?

期望指出一个变量的典型值或平均值。

2. E ( X 1 + X 2 ) E(X_1+X_2) E(X1+X2) E ( 2 X ) E(2X) E(2X) 的区别?

X 1 + X 2 X_1+X_2 X1+X2 表示你正在考虑 X X X 的两个观测值; 2 X 2X 2X 表示你有一个观测值,但其可能数值翻倍。即:独立观测和线性变化的区别。

6.排列与组合:排序、排位、排

排列与组合的区别?

排列与顺序有关,组合与顺序无关。

7.几何分布、二项分布及泊松分布:坚持离散

1.几何分布

P ( X = r ) = p q r − 1 P(X=r) = pq^{r-1} P(X=r)=pqr1

2.什么时候使用几何分布?

几何分布进行一系列相互独立的试验;每一次试验都既有成功的可能,也有失败的可能,且单次试验的成功概率相同;主要是为了知道取得第一次成功需要进行多少次试验。

3.二项分布

P ( X = r ) = C n r × p r × q n − r P(X=r) = C_n^r × p^r × q^{n-r} P(X=r)=Cnr×pr×qnr

4.几何分布和二项分布的区别?

  • 相同点:处理的都是独立实验,每次试验或是成功或是失败。差别在于实际要求的结果。
  • 不同点:如果实验次数固定,求成功一定次数的概率,则需使用二项分布;如果感兴趣在取得第一次成功前需要实验多少次,则需使用几何分布。

5.泊松分布

单独事件在给定区间内随机、独立地发生。已知该区间内的事件平均发生次数,且为有限数值。通常用 λ λ λ 表示。
P ( X = r ) = e − λ λ r r ! P(X=r) = \frac{e^{-λ}λ^r}{r!} P(X=r)=r!eλλr

6.什么时候可以用泊松分布近似替代二项分布?

二项分布中, n n n 足够大, p p p 足够小。

8.正态分布的运用:保持正态

1.概率密度函数

通过它可以求出一个数据范围内的某个连续变量的概率,它向我们指出该概率分布的形状。

2.如何理解正态分布(高斯分布)?

正常情况下的形态。

3.正态概率计算步骤?

① 确定分布与范围
② 使其标准化
③ 查找概率

9.再谈正态分布的运用:超越正态

1.什么时候可以用正态分布近似替代二项分布?

某些情况下,二项分布的形状看上去和正态分布的形状十分相似,这样的情况下,可以用正态分布近似替代二项分布。但是因为二项分布是离散分布,而正态分布则是连续分布,所以近似的结果存在误差,需要进行连续性修正。

2.正态分布和泊松分布都能作为二项分布 X ~ B ( n , p ) X ~ B(n,p) XB(n,p) 的近似,一般选用哪一个?

  • n p > 5 np>5 np>5 n q > 5 nq>5 nq>5,则使用正态分布代替二项分布;
  • n > 50 n>50 n>50 p < 0.1 p<0.1 p<0.1,则可以使用泊松分布近似替代二项分布。

3.什么时候可以用正态分布近似替代泊松分布?

随着 λ λ λ 变大,泊松分布图的外形看起来越来越像正态分布。曲线的主要部分呈合理对称,近似光滑曲线,与正态分布接近。更具体来说,如果 X ~ P 0 ( λ ) X~P_0(λ) XP0(λ) λ > 15 λ>15 λ>15,则可以用 X ~ N ( λ , λ ) X~N(λ,λ) XN(λ,λ) 进行近似。

10.统计抽样的运用:抽取样本

1.无偏样本、偏倚样本

无偏样本可以代表目标总体,即该样本与总体样本具有相似特性,我们可以利用这些相似特性对总体本身进行判断。

2.抽样空间、目标总体、抽样单位

抽样空间列出总体中的所有独立单位,被作为样本的基础,但它并不是样本本身,因为我们不会抽取抽样空间中的所有对象。
目标总体指的是正在研究的、并且打算为其采集结果的群体。

3.如何选择样本?

简单随机抽样、分层抽样、整群抽样、系统抽样

11.总体和样本的估计:进行预测

1.总体均值、样本均值、点估计量

样本均值被称为总体均值的点估计量,作为一个基于样本数据的计算结果,它给出了总体均值的良好估计。

2.概率和比例

可以认为概率和比例互有关系。总体的成功数目除以总体大小即等于比例,这个算法和用于计算二项分布的概率的算法是一样的。

3.什么是比例的抽样分布?

比例的抽样分布其实是一种概率分布,由所有大小为 n 的可能样本的各种比例构成。如果我们知道这些比例的分布,就能用这个分布求出某一个特定样本的比例的发生概率。

比如,我们能够利用比例的抽样分布求出 “一大盒糖球中的红色糖球比例至少为40%” 的概率。

4.均值的抽样分布,样本均值的概率分布

均值的抽样分布为我们提供了一种计算样本均值的概率的方法。

5.中心极限定理

中心极限定理是指:如果从一个非正态总体 X X X 中取出一个样本,且样本很大,则样本均值 X ‾ \overline X X 的分布近似为正态分布。

如果总体的均值和方差为 μ μ μ σ 2 σ^2 σ2,且 n n n 很大,例如大于30,则: X ‾ ~ N ( μ , σ 2 / n ) \overline X ~ N(μ,σ^2/n) XN(μ,σ2/n)

使用中心极限定理求出的概率与样本均值有关,而与样本中的数值无关,不需要进行任何连续性修正。

12.置信区间的构建:自信地猜测

1.求解置信区间的步骤:

① 选择总体统计量
② 求出其抽样分布
③ 决定置信水平
④ 求出置信上下限

2. t t t 分布

当总体符合正态分布, σ 2 σ^2 σ2 未知,且可供支配的样本很小时, X ‾ \overline X X 符合 t t t 分布。

t t t 分布是外形光滑、对称的曲线,确切形状取决于样本大小。当样本很大时,t 分布外形很像正态分布;当样本很小时,曲线较为扁平,有两条粗粗的尾巴。它只有一个参数 ν ν ν ν = n − 1 ν = n-1 ν=n1 n n n 为样本大小, ν ν ν 被称为自由度。

13.假设检验的运用:研究证据

1.假设检验

假设检验,又称显著性检验。

2.假设检验的功效

H 0 H_0 H0 为假的情况下拒绝 H 0 H_0 H0 的概率

3.假设检验的步骤:

① 确定要进行检验的假设
② 选择检验统计量
③ 确定用于做决策的拒绝域
④ 求出检验统计量的 p 值
⑤ 查看样本结果是否位于拒绝域内
⑥ 作出决策

4.备择假设

与原假设对立的断言

5.单尾检验、双尾检验

单尾检验即检验的拒绝域落在可能的数据集一侧,双尾检验即拒绝域一分为二位于数据集的两侧。

6.第一类错误、第二类错误

  • 第一类错误: H 0 H_0 H0真,但拒绝 H 0 H_0 H0
  • 第二类错误: H 0 H_0 H0假,但接受 H 0 H_0 H0

14. χ 2 χ^2 χ2分布:继续探讨······

1. χ 2 χ^2 χ2分布的两个主要用途

① 检验拟合优度,也就是可以检验一组给定的数据与指定分布的吻合程度。
② 检验两个变量的独立性

15.相关与回归:我的线条如何?

1.最小二乘回归法

最小二乘回归法是一种数学方法,可用一条最佳拟合线将一组二变量数据拟合,通过将公式为 y = a + b x y=a+bx y=a+bx 的一条直线与一组数值相拟合,使得误差平方和最小。

2.相关系数

用相关系数衡量直线与数据的拟合度


当然,上面所提到的只是统计学知识入门,如果希望对统计学有更加深入的理解,需要进一步的学习。水滴石穿非一日之功,与君共勉!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

G皮T

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值