【数理统计】《深入浅出统计学》要点总结

G皮T

已于 2023-11-02 20:09:57 修改

阅读量2.4k

点赞数 3

分类专栏： # 数理统计 / 机器学习文章标签：数理统计数据分析数据挖掘统计学概率机器学习 statistics

于 2022-05-07 08:36:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/be_racle/article/details/124623013

版权

数理统计 / 机器学习专栏收录该内容

5 篇文章

订阅专栏

《深入浅出统计学》要点总结

1.信息图形化：第一印象
2.集中趋势的量度：中庸之道
3.分散性与变异性的量度：强大的“距”
4.概率计算：把握机会
5.离散概率分布的运用：善用期望
6.排列与组合：排序、排位、排
7.几何分布、二项分布及泊松分布：坚持离散
8.正态分布的运用：保持正态
9.再谈正态分布的运用：超越正态
10.统计抽样的运用：抽取样本
11.总体和样本的估计：进行预测
12.置信区间的构建：自信地猜测
13.假设检验的运用：研究证据
14. $χ^2$ 分布：继续探讨······
15.相关与回归：我的线条如何？

统计学作为数据分析、数据挖掘、机器学习等众多研究方向的基石，其重要性不言而喻。谁都想学好，但学习过程中，随之而来的各种术语、大量公式，常常会磨灭我们的学习热情。笔者在大学和研究生阶段也曾学习过相关课程，但觉得很枯燥。最近读了Dawn Griffiths的《深入浅出统计学》一书，发现原来乏味的统计理论也能像说故事一样娓娓道来。纵览全书，我总结了一些要点知识如下。

1.信息图形化：第一印象

1.统计的研究步骤

① 搜集数据
② 分析
③ 下结论

2.直方图与条形图有什么不一样的地方？

直方图与条形图外观相似，但有两个重要区别。第一，每个长方形面积与频数成比例；第二，图上的长方形之间没有间隔。

3.直方图向下取整的例子

年龄。以 19 岁为例，即使过了 19 岁，但不到 20 岁，也会把他归入 19 岁。

4.什么是频数密度？

在直方图中，面积等于频数，所以长方形的高度 = 频数 / 长方形的宽度。而频数密度指的是分组数据中的频数的密集度。频数密度 = 频数 / 组距。

5.可视化图形的选择

条形图、直方图、折线图

2.集中趋势的量度：中庸之道

均值是平均数的一种。
异常值会导致数据偏斜，对均值的影响比较大。
其他类型的平均数包括熟悉的中位数、众数等。

3.分散性与变异性的量度：强大的“距”

1.什么是全距？

上界－下界，即数据集中的最大数减去最小数。异常值对全距影响的可能性较大。

2.什么是迷你距？

不再度量整个数据集的全距，而是找出全距的一部分——不包含异常值的部分。

3.什么是四分位距？

每两个四分位数之间的距被称为四分位距。
四分位距 = 上四分位数 - 下四分位数。
可以利用四分位距剔除异常值。

4.什么是百分位数？

将一批数据按百分比进行分割，则起分割作用的数值被称为百分位数。

5.如何读懂箱型图？

箱线图显示数据的全距（上界、下界）、四分位距（上四分位数、下四分位数）、中位数。

6.量度变异性的方法

方差、标准差

7.为什么要使用标准分？

标准分，常用 $z$ 表示，为我们提供了一种对不同数据集的数据进行比较的方法

4.概率计算：把握机会

1.什么是概率空间？

$S$ 被称为概率空间，或称为样本空间，是表示所有可能结果的一种简便表示法。

2.对立事件和互斥事件有什么区别？

对立事件：事件 $A$ 、 $B$ 中必定而且只有一个发生。除了 $A$ 就是 $B$ ，没有第三种可能。
互斥事件：事件 $A$ 与事件 $B$ 不可能同时发生，强调的是“不同时”发生。

3.什么是条件概率？

条件概率用来度量与其他事件的发生情况有关的某个事件的概率。
概率树能够很方便地处理与条件概率相关的问题。

4.全概率公式

$P (B) = P (A) \times P (B ∣ A) + P (A^{'}) \times P (B ∣ A^{'})$

5.贝叶斯定理（全概率公式是贝叶斯定理的分母）

$\frac{P(A∩B)}{P(B)} = \frac {P(A) × P(B | A)}{P(A) × P(B | A) + P(A') × P(B | A')}$

6.什么是相关事件？什么是独立事件？

如果几个事件互有影响，则为相关事件。如果互不影响，则为独立事件。

对于独立事件有： $P (A ∣ B) = P (A)$ $P (A \cap B) = P (A) \times P (B)$

5.离散概率分布的运用：善用期望

1.什么是期望？

期望指出一个变量的典型值或平均值。

2. $E(X_1+X_2)$ 和 $E (2 X)$ 的区别?

$X_1+X_2$ 表示你正在考虑 $X$ 的两个观测值； $2 X$ 表示你有一个观测值，但其可能数值翻倍。即：独立观测和线性变化的区别。

6.排列与组合：排序、排位、排

排列与组合的区别？

排列与顺序有关，组合与顺序无关。

7.几何分布、二项分布及泊松分布：坚持离散

1.几何分布

$P(X=r) = pq^{r-1}$

2.什么时候使用几何分布？

几何分布进行一系列相互独立的试验；每一次试验都既有成功的可能，也有失败的可能，且单次试验的成功概率相同；主要是为了知道取得第一次成功需要进行多少次试验。

3.二项分布

$P(X=r) = C_n^r × p^r × q^{n-r}$

4.几何分布和二项分布的区别？

相同点：处理的都是独立实验，每次试验或是成功或是失败。差别在于实际要求的结果。
不同点：如果实验次数固定，求成功一定次数的概率，则需使用二项分布；如果感兴趣在取得第一次成功前需要实验多少次，则需使用几何分布。

5.泊松分布

单独事件在给定区间内随机、独立地发生。已知该区间内的事件平均发生次数，且为有限数值。通常用 $λ$ 表示。
$\frac{e^{-λ}λ^r}{r!}$

6.什么时候可以用泊松分布近似替代二项分布？

二项分布中， $n$ 足够大， $p$ 足够小。

8.正态分布的运用：保持正态

1.概率密度函数

通过它可以求出一个数据范围内的某个连续变量的概率，它向我们指出该概率分布的形状。

2.如何理解正态分布（高斯分布）？

正常情况下的形态。

3.正态概率计算步骤？

① 确定分布与范围
② 使其标准化
③ 查找概率

9.再谈正态分布的运用：超越正态

1.什么时候可以用正态分布近似替代二项分布？

某些情况下，二项分布的形状看上去和正态分布的形状十分相似，这样的情况下，可以用正态分布近似替代二项分布。但是因为二项分布是离散分布，而正态分布则是连续分布，所以近似的结果存在误差，需要进行连续性修正。

2.正态分布和泊松分布都能作为二项分布 $X ～ B (n, p)$ 的近似，一般选用哪一个？

若 $n p > 5$ 且 $n q > 5$ ，则使用正态分布代替二项分布；
若 $n > 50$ 且 $p < 0.1$ ，则可以使用泊松分布近似替代二项分布。

3.什么时候可以用正态分布近似替代泊松分布？

随着 $λ$ 变大，泊松分布图的外形看起来越来越像正态分布。曲线的主要部分呈合理对称，近似光滑曲线，与正态分布接近。更具体来说，如果 $X～P_0(λ)$ 且 $λ > 15$ ，则可以用 $X ～ N (λ, λ)$ 进行近似。

10.统计抽样的运用：抽取样本

1.无偏样本、偏倚样本

无偏样本可以代表目标总体，即该样本与总体样本具有相似特性，我们可以利用这些相似特性对总体本身进行判断。

2.抽样空间、目标总体、抽样单位

抽样空间列出总体中的所有独立单位，被作为样本的基础，但它并不是样本本身，因为我们不会抽取抽样空间中的所有对象。
目标总体指的是正在研究的、并且打算为其采集结果的群体。

3.如何选择样本？

简单随机抽样、分层抽样、整群抽样、系统抽样

11.总体和样本的估计：进行预测

1.总体均值、样本均值、点估计量

样本均值被称为总体均值的点估计量，作为一个基于样本数据的计算结果，它给出了总体均值的良好估计。

2.概率和比例

可以认为概率和比例互有关系。总体的成功数目除以总体大小即等于比例，这个算法和用于计算二项分布的概率的算法是一样的。

3.什么是比例的抽样分布？

比例的抽样分布其实是一种概率分布，由所有大小为 n 的可能样本的各种比例构成。如果我们知道这些比例的分布，就能用这个分布求出某一个特定样本的比例的发生概率。

比如，我们能够利用比例的抽样分布求出 “一大盒糖球中的红色糖球比例至少为40%” 的概率。

4.均值的抽样分布，样本均值的概率分布

均值的抽样分布为我们提供了一种计算样本均值的概率的方法。

5.中心极限定理

中心极限定理是指：如果从一个非正态总体 $X$ 中取出一个样本，且样本很大，则样本均值 $\overline X$ 的分布近似为正态分布。

如果总体的均值和方差为 $μ$ 和 $σ^2$ ，且 $n$ 很大，例如大于30，则： $\overline X ～ N(μ,σ^2/n)$

使用中心极限定理求出的概率与样本均值有关，而与样本中的数值无关，不需要进行任何连续性修正。

12.置信区间的构建：自信地猜测

1.求解置信区间的步骤：

① 选择总体统计量
② 求出其抽样分布
③ 决定置信水平
④ 求出置信上下限

2. $t$ 分布

当总体符合正态分布， $σ^2$ 未知，且可供支配的样本很小时， $\overline X$ 符合 $t$ 分布。

$t$ 分布是外形光滑、对称的曲线，确切形状取决于样本大小。当样本很大时，t 分布外形很像正态分布；当样本很小时，曲线较为扁平，有两条粗粗的尾巴。它只有一个参数 $ν$ ， $ν = n - 1$ 。 $n$ 为样本大小， $ν$ 被称为自由度。

13.假设检验的运用：研究证据

1.假设检验

假设检验，又称显著性检验。

2.假设检验的功效

在 $H_0$ 为假的情况下拒绝 $H_0$ 的概率

3.假设检验的步骤：

① 确定要进行检验的假设
② 选择检验统计量
③ 确定用于做决策的拒绝域
④ 求出检验统计量的 p 值
⑤ 查看样本结果是否位于拒绝域内
⑥ 作出决策

4.备择假设

与原假设对立的断言

5.单尾检验、双尾检验

单尾检验即检验的拒绝域落在可能的数据集一侧，双尾检验即拒绝域一分为二位于数据集的两侧。

6.第一类错误、第二类错误

第一类错误： $H_0$ 真，但拒绝 $H_0$
第二类错误： $H_0$ 假，但接受 $H_0$

14. $χ^2$ 分布：继续探讨······

1. $χ^2$ 分布的两个主要用途

① 检验拟合优度，也就是可以检验一组给定的数据与指定分布的吻合程度。
② 检验两个变量的独立性

15.相关与回归：我的线条如何？

1.最小二乘回归法

最小二乘回归法是一种数学方法，可用一条最佳拟合线将一组二变量数据拟合，通过将公式为 $y = a + b x$ 的一条直线与一组数值相拟合，使得误差平方和最小。

2.相关系数

用相关系数衡量直线与数据的拟合度

当然，上面所提到的只是统计学知识入门，如果希望对统计学有更加深入的理解，需要进一步的学习。水滴石穿非一日之功，与君共勉！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

G皮T 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。