假设检验和统计推断：从样本到总体

theskylife

已于 2023-12-03 18:12:14 修改

阅读量1.4k

点赞数 28

分类专栏：数据分析 20天玩转数据分析文章标签：人工智能算法 python 数据分析数据挖掘

于 2023-12-02 23:40:38 首次发布

本文链接：https://blog.csdn.net/qq_41780234/article/details/134696901

版权

数据分析同时被 2 个专栏收录

153 篇文章 49 订阅

订阅专栏

20天玩转数据分析

21 篇文章 3 订阅

订阅专栏

1. 写在开头

统计学中的假设检验和统计推断是从样本数据中对总体进行推断和判断的关键工具。本文将深入探讨假设检验的类型，并结合具体的场景和例子，展示不同类型假设检验的应用。

2. 单样本 t 检验

2.1 概述

单样本 t 检验（One-sample t-test）是一种用于比较一个样本的平均值是否显著不同于一个已知的总体平均值的统计方法。它用于检验一个样本的平均值是否与总体的平均值有显著差异，从而判断这个样本是否代表整个总体。

零假设（H0）： 样本的平均值等于总体的平均值。
备择假设（H1）： 样本的平均值不等于总体的平均值。

2.2 一般步骤和应用场景

T检验的一般步骤如下：

1. 收集样本数据： 从总体中随机选择一个样本，并收集相关数据。
1. 建立假设： 提出零假设和备择假设。
1. 选择显著性水平： 选择显著性水平（通常为0.05或0.01）。
1. 计算 t 统计量： 使用样本数据计算 t 统计量，表示样本平均值与总体平均值的差异。
1. 计算自由度： 根据样本容量计算 t 分布的自由度。
1. 查表或计算 P 值： 将 t 统计量与 t 分布表比较，或使用软件计算 P 值。
1. 做出决策： 如果 P 值小于显著性水平，拒绝零假设，说明样本平均值与总体平均值显著不同。

单样本 t 检验常用于以下场景：

检验一个样本的平均值是否显著不同于总体平均值。
检验一个样本的平均值是否显著大于或小于总体平均值。

这个检验的前提条件是数据应该近似正态分布，样本容量越大，对正态性的要求越宽松。如果数据不服从正态分布，可以考虑使用非参数检验方法。

2.3 场景与例子：咖啡因含量

假设你是一家咖啡生产商，想要确认你的咖啡的咖啡因含量是否符合标准值（例如每杯咖啡的咖啡因含量是否为80毫克）。你收集了一组样本数据，然后使用单样本 t 检验来判断样本的平均咖啡因含量是否等于80毫克。

import scipy.stats as stats

# 示例数据（咖啡因含量）
coffee_data = [78, 82, 79, 85, 80, 81, 83, 79, 84, 82]

# 假设值
expected_caffeine = 80

# 执行单样本 t 检验
t_statistic, p_value = stats.ttest_1samp(coffee_data, expected_caffeine)

# 输出结果
print(f"T统计量: {t_statistic}")
print(f"P值: {p_value}")

# 判断是否拒绝零假设
alpha = 0.05
if p_value < alpha:
    print("拒绝零假设，咖啡因含量不符合标准值。")
else:
    print("接受零假设，咖啡因含量符合标准值。")

通过运行上述代码，我们可以得到以下结果：
2.1

通过上面的例子，我们就可以得出这样的几轮，这些样本的咖啡因含量是符合标准值的。

3. 两独立样本 t 检验

3.1 概述

两独立样本 t 检验（Independent Samples t-test）是用于比较两个独立样本的平均值是否存在显著差异的统计方法。这个检验用于判断两组数据之间是否存在统计学上的显著性差异，即这两组数据是否来自于相同的总体。

这个检验的基本假设如下：

零假设（H0）： 两组样本的平均值相等，没有显著差异。
备择假设（H1）： 两组样本的平均值不相等，存在显著差异。

3.2 一般步骤和应用场景

两独立样本 t 检验的一般步骤如下：

1. 收集数据： 分别从两组独立的样本中收集相关数据。
1. 建立假设： 提出零假设和备择假设。
1. 选择显著性水平： 选择显著性水平（通常为0.05或0.01）。
1. 计算 t 统计量： 使用两组样本的均值、方差和样本容量计算 t 统计量。
1. 计算自由度： 根据两组样本的自由度计算 t 分布的自由度。
1. 查表或计算 P 值： 将 t 统计量与 t 分布表比较，或使用软件计算 P 值。
1. 做出决策： 如果 P 值小于显著性水平，拒绝零假设，说明两组样本的平均值存在显著差异。

应用场景：

药物治疗效果： 比较接受不同治疗（药物或治疗方案）的患者组和对照组的病情改善情况。
产品或服务比较： 比较两个产品或服务在用户满意度、销售额等方面的平均表现。
教育研究： 比较采用不同教学方法的两个学生群体在考试成绩上的差异。
人群特征比较： 比较两个不同人群（例如男性和女性、不同年龄组）在某种特征上的平均差异。
社会科学研究： 比较两个不同文化、地区或社会群体在某种行为、态度等方面的平均水平。

这个检验通常要求两个样本的数据近似正态分布，并且两个样本的方差相等。如果数据不满足这些要求，可能需要使用修正或非参数方法。

3.3 场景与例子：药物治疗效果

考虑一个医学研究，研究一种新的药物治疗方法对患者的效果。将患者分为两组，一组接受新药物治疗，另一组接受传统治疗，然后使用两独立样本 t 检验来比较两组患者的治疗效果。

import scipy.stats as stats

# 创建测试数据（治疗前后的症状得分）
treatment_group = [65, 68, 72, 60, 75, 78, 70, 68, 82, 80]
control_group = [58, 63, 55, 50, 65, 62, 54, 57, 60, 50]

# 执行两独立样本 t 检验
t_statistic, p_value = stats.ttest_ind(treatment_group, control_group)

# 输出结果
print(f"T统计量: {t_statistic}")
print(f"P值: {p_value}")

# 判断是否拒绝零假设
alpha = 0.05
if p_value < alpha:
    print("拒绝零假设，新药物治疗效果显著优于传统治疗。")
else:
    print("接受零假设，未能证明新药物治疗效果显著优于传统治疗。")

通过运行上述代码，我们可以得到以下结果：
3.1

从上面的检验结果上来看，我们可以得知两组数据之间存在差异，也就是说新药物治疗效果是显著优于传统治疗的。

4. 配对样本 t 检验

4.1 概述

配对样本 t 检验（Paired Samples t-test），也称为相关样本 t 检验，是一种用于比较两个相关样本的平均值是否存在显著差异的统计方法。这个检验适用于两个相关的观测值，通常是同一组被试对象在不同时间点或不同条件下的测量。

这个检验的基本假设如下：

零假设（H0）： 两个相关样本的平均值相等，没有显著差异。
备择假设（H1）： 两个相关样本的平均值不相等，存在显著差异。

这个检验的应用场景通常涉及到同一组被试对象在两个不同条件下的观测，例如：

同一组人的前后两次测量，比如测试前和测试后的成绩。
同一组人在两种不同条件下的观测，比如治疗前和治疗后的生理指标。

这种检验的目的是判断两组相关样本的平均值是否存在显著差异，以便确定在两种条件下是否存在显著变化。

4.2 一般步骤和应用场景

配对样本 t 检验的步骤包括：

收集数据： 收集同一组被试对象在两个相关条件下的数据。
建立假设： 提出零假设和备择假设。
选择显著性水平： 选择显著性水平（通常为0.05或0.01）。
计算 t 统计量： 使用两组相关样本的差值、差值的均值和标准差计算 t 统计量。
计算自由度： 根据样本容量计算 t 分布的自由度。
查表或计算 P 值： 将 t 统计量与 t 分布表比较，或使用软件计算 P 值。
做出决策： 如果 P 值小于显著性水平，拒绝零假设，说明两组相关样本的平均值存在显著差异。

配对样本 t 检验的优势在于可以消除个体间的差异，更关注处理前后的变化。

常用的应用场景：
配对样本 t 检验在很多领域都有常见的应用场景，其中一些包括：

医学研究： 在临床试验中，对同一组患者进行治疗前和治疗后的生理指标测量，以评估治疗的效果。
心理学研究： 在心理学实验中，对受试者进行实验前和实验后的心理测量，以了解某种刺激或介入的影响。
教育研究： 在教育领域，比较同一组学生在教学方法改变前后的成绩，评估新教学方法的有效性。
产品研发： 在产品研发过程中，对同一组样本进行产品改进前后的测试，以确保新版本的产品质量和性能。
运动科学： 比较运动员在进行某种训练前后的体能指标，以评估训练的效果。
市场研究： 在市场研究中，对同一组消费者在接触广告前后的购买行为进行比较，评估广告的影响。
环境科学： 在环境监测中，比较同一地点在不同时间点的环境数据，以观察环境变化趋势。
财务研究： 在财务分析中，比较同一公司在不同会计期间的财务指标，以评估公司业绩的变化。

4.3 场景与例子：减肥效果

假设你进行了一项关于一种新的减肥方法的研究，你收集了同一组人在减肥前后的体重数据。使用配对样本 t 检验来判断减肥方法是否显著降低了体重。

import scipy.stats as stats

# 创建测试数据（减肥前后的体重）
before_weight = [70, 72, 75, 68, 74, 71, 69, 73, 76, 70]
after_weight = [65, 68, 72, 65, 70, 67, 64, 71, 74, 68]

# 执行配对样本 t 检验
t_statistic, p_value = stats.ttest_rel(before_weight, after_weight)

# 输出结果
print(f"T统计量: {t_statistic}")
print(f"P值: {p_value}")

# 判断是否拒绝零假设
alpha = 0.05
if p_value < alpha:
    print("拒绝零假设，新减肥方法显著降低了体重。")
else:
    print("接受零假设，未能证明新减肥方法显著降低了体重。")

通过运行上述代码，我们可以得到以下结果：
4.1
通过上面的例子，我们可以看出两组数据存在差异，因此得出一下结论，新减肥方法能显著降低体重。

5. 卡方检验

卡方检验我在其他博客里有进行详细介绍，详见如何在Python中进行卡方检验，这里仅进行一个简单介绍。

5.1 概述

卡方检验（Chi-Square Test）是一种用于检验观察频数与期望频数之间差异的统计方法。它常用于分析分类数据，特别是用于比较观察频数与期望频数之间的关系，从而判断它们是否独立。

卡方检验的基本思想是比较实际观察到的频数与在假设下的期望频数之间的差异是否显著。它的原假设（零假设）是观察频数与期望频数没有显著差异，而备择假设则是它们之间存在显著差异。

卡方检验的公式为：

$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$

其中：

$\chi^2$ 是卡方统计量。
$O_i$ 是实际观察到的频数。
$E_i$ 是期望频数，它是在假设下，某一类别的频数应该具有的理论值。

卡方检验的结果是卡方统计量和对应的 p-value。如果 p-value 较小（通常小于显著性水平如0.05），我们就有足够的证据拒绝原假设，认为观察到的频数与期望频数存在显著差异。需要注意的是，卡方检验有一些假设，包括观察值必须是独立的，样本量足够大等。在应用卡方检验时，需要谨慎考虑这些前提条件。

5.2 一般步骤和应用场景

它的一般步骤如下：

制定假设： 首先，明确研究者的零假设（H0）和备择假设（H1）。通常，零假设是两个变量之间没有关联或无显著差异，而备择假设则是存在关联或有显著差异。
构建观察表： 将观察数据整理成一个列联表（contingency table），其中行和列分别代表两个不同的变量的不同水平，交叉点处的数字是对应组合的观察频数。
计算期望频数： 对于每个单元格，计算期望频数，即在零假设成立的情况下，该单元格的期望频数。
计算卡方统计量： 使用观察频数和期望频数，计算卡方统计量。卡方统计量的计算公式如下：

$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$
计算自由度： 自由度的计算取决于行数和列数。对于 (r) 行和 (c) 列的表格，自由度为 ((r-1) \times (c-1))。
查找卡方分布表： 在给定的显著性水平（通常为 0.05），查找卡方分布表，找到临界值。
判断显著性： 比较计算得到的卡方统计量与临界值，如果卡方统计量大于临界值，则拒绝零假设，认为变量之间存在显著差异。否则，接受零假设。

应用场景：

卡方检验适用于许多应用场景，其中主要包括两种情况：拟合度检验（Goodness of Fit Test）和独立性检验（Test of Independence）。以下是一些常见的应用场景：

拟合度检验（Goodness of Fit Test）：
- 检验总体分布： 卡方检验可以用来检验观察到的频数是否与理论上预期的分布相符。例如，你可以使用卡方检验来检验一个样本是否符合正态分布或其他特定分布。
- 检验模型拟合： 在统计模型中，卡方检验用于检验模型是否适合观察到的数据。例如，在 logistic 回归模型中，你可以使用卡方拟合度检验来评估模型的拟合程度。
独立性检验（Test of Independence）：
- 比较两个分类变量： 卡方检验常用于检验两个分类变量是否相互独立。例如，你可以使用卡方检验来判断两种产品的购买偏好是否独立于顾客的性别。
- 评估关联性： 在观察两个变量之间的关系时，卡方检验可以用来评估这两个变量之间是否存在显著的关联。例如，你可以使用卡方检验来检验在两个城市中，不同人口组群是否在就业方面存在显著的差异。
医学研究： 卡方检验在医学研究中经常用于比较不同治疗组之间的治疗效果，检验治疗与否是否与疾病状况的改变独立。
社会科学研究： 在社会科学中，卡方检验常用于研究不同群体之间的行为、态度或观点的差异，以及社会现象的分布。

需要注意的是，卡方检验有一些假设，包括观察值必须是独立的，且每个单元格的期望频数不能太小。在使用卡方检验时，需要根据具体的研究问题和数据特征来确保这些假设的满足。

5.3 场景与例子：产品偏好调查

假设你在一项产品偏好调查中，记录了男性和女性对两种不同品牌的偏好情况（喜欢或不喜欢）。使用卡方检验来判断性别与产品偏好是否独立。

import numpy as np
import scipy.stats as stats

# 创建测试数据（产品偏好调查）
male_likes =  np.array([25, 15])  # 男性喜欢和不喜欢的人数
female_likes = np.array([20, 30])  # 女性喜欢和不喜欢的人数

# 执行卡方检验
chi2_stat, p_value, dof, expected = stats.chi2_contingency([male_likes, female_likes])

# 输出结果
print(f"卡方统计量: {chi2_stat}")
print(f"P值: {p_value}")

# 判断是否拒绝零假设
alpha = 0.05
if p_value < alpha:
    print("拒绝零假设，性别与产品偏好存在关联。")
else:
    print("接受零假设，未能证明性别与产品偏好存在关联。")

通过运行上述代码，我们可以得到以下结果：
5.1
通过上面的例子我们可以得出下面的结论，性别与产品偏好之间不存在关联性。

6. 非参数检验

6.1 概述

除了前述介绍的参数检验外，还有一类称为非参数检验的方法。非参数检验不对总体分布做出特定假设，适用于数据不满足正态分布等条件的情况。
非参数检验是一类在对数据分布或总体参数没有特定假设的情况下进行统计推断的方法。与参数检验相比，非参数检验更加灵活，因为它们不依赖于总体分布的具体形状。非参数方法通常使用数据的排序或秩次来进行分析，而不涉及具体的参数。

以下是非参数检验的一些常见特点和应用场景：

分布无假设： 非参数检验不要求数据满足特定的分布假设，因此对于未知或难以确定总体分布的情况下很有用。
数据类型广泛： 非参数方法对于不同类型的数据（例如，连续型、离散型、有序型）都是适用的。
对异常值鲁棒： 由于非参数方法通常基于秩次或排序，对于存在异常值的数据更具鲁棒性，不容易受到极端值的影响。
小样本可用： 非参数方法在小样本情况下也是有效的，不像一些参数方法对样本量有严格的要求。

以下是一些常见的非参数检验方法：

Mann-Whitney U 检验： 用于比较两组独立样本的中位数是否相等。
Wilcoxon 符号秩和检验： 用于比较一对配对样本的中位数是否相等。
Kruskal-Wallis 检验： 用于比较三个或更多独立组的中位数是否相等。
Friedman 检验： 用于比较三个或更多配对组的中位数是否相等。
Kolmogorov-Smirnov 检验： 用于比较两个样本是否来自相同的分布。
Runs Test： 用于检验数据的随机性。

非参数方法通常是在对数据分布没有强烈假设且样本量较小的情况下的一种实用选择。在选择特定的非参数检验方法时，需要根据实际问题和数据性质来进行合理的选择。

6.2 一般步骤及应用场景

非参数检验的一般步骤包括以下几个主要步骤：

明确研究问题和假设： 首先，明确你的研究问题，并确定适用于该问题的非参数检验方法。明确零假设（H0）和备择假设（H1）。
选择适当的非参数检验方法： 根据你的研究问题，选择适当的非参数检验方法。例如，Mann-Whitney U 检验用于比较两组独立样本，Wilcoxon 符号秩和检验用于比较一对配对样本，Kruskal-Wallis 检验用于比较三个或更多组独立样本等。
收集数据： 收集样本数据，确保数据的收集方式符合你研究问题的要求。对于某些非参数检验，如秩次检验，数据的排序可能是必要的。
计算统计量： 根据选择的非参数检验方法，计算相应的统计量。这可能涉及到对数据的排序、秩次分配等操作。
确定显著性水平： 选择显著性水平（通常为0.05或0.01），表示对拒绝零假设的程度。
做出决策： 使用计算得到的统计量和显著性水平，判断是否拒绝零假设。通常，通过比较计算得到的 p-value 与显著性水平来做决策。如果 p-value 小于显著性水平，就拒绝零假设。
解释结果： 在做出决策后，解释你的结果。说明你是否有足够的证据拒绝零假设，以及这个结果对研究问题的影响。
报告结果： 报告你的统计分析结果，包括统计量的数值、p-value，以及是否拒绝了零假设。提供足够的信息，以便其他人能够理解你的研究设计和分析过程。

需要注意的是，不同的非参数检验方法可能有不同的具体步骤，因此在进行分析之前，建议参考相应的文献或软件文档以确保正确的操作。

6.3 场景与例子：中位数检验

假设你研究了两组样本，分别代表两种不同的药物治疗组，而且数据不满足正态分布。你想比较这两种药物的治疗效果，可以使用Mann-Whitney U 检验，这是一种非参数检验方法。

# 示例数据（治疗效果评分，两个独立样本）
drug_A = [55, 62, 58, 70, 48, 65, 72, 61, 53, 68]
drug_B = [50, 58, 54, 67, 45, 60, 68, 57, 52, 63]

# 执行 Mann-Whitney U 检验
U_statistic, p_value = stats.mannwhitneyu(drug_A, drug_B)

# 输出结果
print(f"Mann-Whitney U统计量: {U_statistic}")
print(f"P值: {p_value}")

# 判断是否拒绝零假设
if p_value < alpha:
    print("拒绝零假设，两种药物的治疗效果存在显著差异。")
else:
    print("接受零假设，未能证明两种药物的治疗效果存在显著差异。")

运行上述代码后，结果如下：
6.1
通过上面的例子，我们可以得出结论，这两种药物治疗效果不存在差异。

7. 蒙特卡洛模拟

7.1 概述

蒙特卡洛模拟（Monte Carlo Simulation）是一种基于概率统计的计算方法，通过使用随机抽样的技术来进行数值计算。它得名于摩纳哥的蒙特卡洛赌场，因为模拟中使用了随机数。

蒙特卡洛模拟的主要思想是通过随机抽样生成大量的随机数，然后使用这些随机数来模拟实际系统或过程的行为。这种方法在处理复杂、难以求解的问题时特别有效，因为它可以提供对问题的近似解。

7.2 一般步骤和应用场景

蒙特卡洛模拟的一般步骤包括：

定义问题： 确定要解决的问题，建立数学模型。
随机抽样： 通过生成随机数来模拟问题中的不确定性或随机性因素。这可以涉及到从某种概率分布中抽取随机数，例如均匀分布、正态分布等。
运行模拟： 使用随机抽样得到的数据运行模拟，模拟系统或过程的行为。对于每个随机样本，计算模型的输出。
收集结果： 对于多次模拟运行，收集模型输出的结果。这可以用于构建输出的概率分布或对输出进行统计分析。
分析结果： 分析收集到的模拟结果，提取有关系统或过程行为的信息。这可以包括估计均值、方差、置信区间等。

应用场景：

金融风险管理： 蒙特卡洛模拟用于估计金融资产的未来价值，并评估投资组合的风险。它能够考虑不同市场变化对投资组合价值的影响，从而帮助投资者制定风险管理策略。
期权定价： 在金融衍生品领域，蒙特卡洛模拟用于估计期权的定价。通过模拟大量可能的未来价格路径，可以计算期权的预期价值。
医学影像重建： 在医学成像领域，蒙特卡洛模拟可用于重建图像，模拟射线在人体组织中的传播。这对于优化医学成像设备的设计和改进图像质量非常有用。
气象预测： 蒙特卡洛模拟可用于气象模型，通过多次模拟随机的气象条件，可以生成不同的气象情景，从而提高对未来天气的预测准确性。
可靠性工程： 在工程领域，蒙特卡洛模拟可用于评估系统的可靠性。通过模拟各种可能的故障和失效情景，可以估计系统失效的概率。
交通流仿真： 蒙特卡洛模拟用于模拟交通流，分析车辆的运动和交叉口的流量。这有助于优化交通信号灯控制和规划城市交通。
核物理实验设计： 在核物理学领域，蒙特卡洛模拟用于设计和分析实验。通过模拟粒子与物质的相互作用，可以预测实验中可能观察到的事件。
电力系统可靠性： 在电力系统规划中，蒙特卡洛模拟用于评估电力系统的可靠性和稳定性，考虑不同的负荷和运行条件。

这表明蒙特卡洛模拟在处理复杂问题和评估不确定性时具有广泛的适用性。

7.3 场景与例子

7.3.1 蒙特卡洛模拟 t 检验

假设你面对一个特殊的问题，标准统计方法不适用，而且你无法得到解析解。你可以使用蒙特卡洛模拟来估计 t 检验的分布，从而进行假设检验。

import numpy as np
import scipy.stats as stats

# 创建示例：蒙特卡洛模拟 t 检验
np.random.seed(42)

# 生成两个不同总体分布的样本
sample_A = np.random.normal(0, 1, 100)
sample_B = np.random.normal(1, 1, 100)

# 执行 t 检验
t_statistic, p_value = stats.ttest_ind(sample_A, sample_B)

# 输出结果
print(f"T统计量: {t_statistic}")
print(f"P值: {p_value}")

运行结果如下：
7.1

蒙特卡洛模拟可以通过多次重复上述步骤，生成 t 统计量的分布，T值绝对值越大，说明两个样本的均值差异越显著。由此我们可以得出A样本和B样本均值的差异，其中，样本A的均值小于样本B的均值。

7.3.2 规划销售目标

如果你只有历史3年的销售金额和目标额，而没有具体的销售量分布的概率信息，那么该如何利用蒙特卡洛模拟来制定未来的销售目标。

import numpy as np
import matplotlib.pyplot as plt

# 假设有三年的历史销售金额和目标额数据
historical_sales = np.array([1000, 1200, 1500])

# 计算历史增长率
growth_rates = np.diff(historical_sales) / historical_sales[:-1]

# 模拟参数
simulation_runs = 10000

# 运行蒙特卡洛模拟，生成未来销售额的可能情景
future_sales_samples = []
for _ in range(simulation_runs):
    future_sales = [historical_sales[-1]]
    for rate in growth_rates:
        future_sales.append(future_sales[-1] * (1 + np.random.normal(rate, 0.02)))  # 添加一些随机扰动
    future_sales_samples.append(future_sales)


# 转置矩阵以获取每次模拟的销售额
future_sales_samples = np.transpose(future_sales_samples)

# 绘制销售额的概率分布直方图
plt.hist(future_sales_samples[-1], bins=30, density=True, alpha=0.7, color='b')
plt.title('Future Sales Distribution')
plt.xlabel('Sales Amount')
plt.ylabel('Probability Density')
plt.show()

# 计算目标销售额的百分位数
target_percentile = 0.85
target_sales = np.percentile(future_sales_samples[-1], target_percentile * 100)

# 输出结果
print(f"Target Sales at {target_percentile*100}% Percentile: {target_sales}")

运行上述代码后，结果如下：
7.2
从上面运行的结果我们可以得出下面的结论：
如果基于最近1次的增长率，再结合市场上的波动情况，在进行一万次的模拟过程后，85%可能性未来的销售额为2303。

8. 贝叶斯统计方法

8.1 概述

贝叶斯统计方法是统计学中一种基于贝叶斯定理的统计推断方法。与频率主义统计学不同，贝叶斯方法使用概率来表示不确定性，并通过贝叶斯定理更新概率分布。以下是一些关键概念：

贝叶斯定理： 贝叶斯统计方法的核心是贝叶斯定理，它描述了在已知先验概率的情况下，如何根据新的数据来更新我们对事件的概率分布。对于两个事件 A 和 B，贝叶斯定理表示为：

$\frac{P(B|A) \cdot P(A)}{P(B)}$

其中， $P (A ∣ B)$ 是在观察到 B 之后事件 A 的后验概率， $P (B ∣ A)$ 是在事件 A 下观察到 B 的概率， $P (A)$ 是先验概率， $P (B)$ 是观察到 B 的概率。
先验概率： 在考虑新数据之前，我们对事件的概率分布的初始估计。这个概率称为先验概率，通常基于领域知识或以前的观察。
似然函数： 表示观察到数据的概率分布，即在给定参数下观察到数据的可能性。
后验概率： 在观察到新数据后，通过应用贝叶斯定理计算得到的更新后的概率分布。它结合了先验概率和似然函数。
边缘似然： 在贝叶斯推断中，边缘似然是在给定参数的条件下观察到数据的概率。通常用于归一化贝叶斯定理的分母。
后验分布： 表示在考虑了新数据之后，参数的概率分布。它是先验分布和似然函数的乘积，再除以边缘似然进行归一化。

8.2 一般步骤和应用场景

贝叶斯统计方法的一般步骤可以总结为以下几个关键步骤：

确定模型： 定义一个描述问题的概率模型，包括参数的先验分布和观测数据的似然函数。这个模型是贝叶斯统计推断的基础。
设定先验分布： 选择适当的先验分布，代表在观察到新数据之前对参数的信仰。先验分布可以基于领域知识、以往经验或其他信息。
观察数据： 收集实际观测数据，并使用观测数据来计算似然函数，描述在给定参数下观测到数据的可能性。
计算后验分布： 利用贝叶斯定理，将先验分布和似然函数结合起来计算参数的后验分布。后验分布反映了在考虑了新数据后参数的概率分布。
利用后验分布进行推断： 分析后验分布，可以得到参数的点估计、置信区间或其他统计量。这些统计量提供了关于参数的信息，考虑了先验知识和观察到的数据。
诊断检验： 对模型进行诊断检验，评估模型的拟合程度，并检查模型是否满足先验分布和似然函数的假设。
重复更新： 当收集到新数据时，可以重复上述步骤，不断更新后验分布，提高对参数的估计精度。

应用场景举例：

贝叶斯统计方法在许多领域都有广泛的应用，其中一些经典的应用场景包括：

医学诊断： 在医学中，贝叶斯方法可以用于疾病诊断和患者治疗决策。通过整合患者的临床信息和实验室结果，贝叶斯统计可以提供更准确的概率估计，帮助医生做出更可靠的诊断和治疗计划。
机器学习： 贝叶斯方法在机器学习中的应用很广泛，特别是在贝叶斯网络、贝叶斯优化和概率图模型等领域。它可以用于参数估计、不确定性建模和模型选择，提高模型的鲁棒性和泛化性能。
金融领域： 在金融领域，贝叶斯方法用于风险管理、投资组合优化和衍生品定价。通过对金融数据的建模，可以更准确地评估投资组合的风险和回报。
信号处理： 贝叶斯方法在信号处理中用于噪声过滤、图像恢复和模式识别。通过考虑先验信息，可以更好地提取有用的信号并抑制噪声。
市场营销： 贝叶斯统计方法可用于市场营销中的定价策略、广告效果分析和消费者行为建模。通过对市场数据的贝叶斯建模，企业可以更精确地了解市场趋势和消费者需求。

8.3 场景与例子：贝叶斯 t 检验

考虑使用贝叶斯方法进行 t 检验的情况。相较于传统的频率统计方法，贝叶斯 t 检验可以提供参数的概率分布，而不仅仅是点估计。

import pymc3 as pm

# 示例数据（两个独立样本）
data_A = np.random.normal(0, 1, 100)
data_B = np.random.normal(1, 1, 100)

# 使用贝叶斯 t 检验
with pm.Model() as model:
    # 定义先验分布
    mean_A = pm.Normal("mean_A", mu=0, sd=1)
    mean_B = pm.Normal("mean_B", mu=0, sd=1)

    # 定义观测数据
    obs_A = pm.Normal("obs_A", mu=mean_A, sd=1, observed=data_A)
    obs_B = pm.Normal("obs_B", mu=mean_B, sd=1, observed=data_B)

    # 采样后验分布
    trace = pm.sample(1000, tune=1000)

# 绘制后验分布图
pm.plot_posterior(trace, var_names=["mean_A", "mean_B"], ref_val=0)

运行上述代码后，结果如下：
8.1

从后验分布图可以看出，两个样本的均值的后验分布都是正态分布，但是mean_A的后验分布的均值和标准差都比mean_B的后验分布的小。这表明，第一个样本的均值比第二个样本的均值更接近于0，也更确定。同时，两个样本的均值的后验分布都包含了0这个参考值，但是mean_A的后验分布包含的概率更大。这表明，两个样本的均值都有可能为0，但是第一个样本的均值为0的可能性更大。

9. Bootstrap 方法

9.1 概述

Bootstrap 方法是一种通过从样本中有放回地抽取数据来估计统计量分布的技术。它可以在没有明确参数假设的情况下进行推断，对于小样本或者未知总体分布的情况尤为有用。

Bootstrap 方法的优势在于，它不依赖于对总体分布的假设，并且可以适用于各种类型的统计问题。它尤其适用于样本量较小、总体分布未知或复杂时的情况。具体来说，Bootstrap 方法可以用于：

估计统计量的置信区间。
评估参数估计的偏差和方差。
评估回归模型的稳健性。
通过重采样检验来进行假设检验。

9.2 一般步骤和应用场景

以下是 Bootstrap 方法的一般步骤：

原始样本： 假设我们有一个包含 n 个观测值的原始样本。
重抽样： 从原始样本中有放回地抽取 n 个观测值，创建一个新的 Bootstrap 样本。由于是有放回抽样，某些观测值在新样本中可能出现多次，而其他一些可能被省略。
统计估计： 对每个 Bootstrap 样本计算感兴趣的统计量（例如均值、中位数、标准差等）。
重复： 重复步骤2和步骤3，通常执行 B 次（B 是用户定义的次数），形成 B 个 Bootstrap 样本的统计量。
计算置信区间或标准误差： 使用 B 个统计量的分布，计算得到估计量的标准误差或置信区间。这可以通过排列统计量的排序结果，取百分位数来实现。

应用场景举例：

Bootstrap 方法在商业中有许多实际应用场景，其中一些包括：

市场营销效果分析： 通过 Bootstrap 方法，企业可以对市场营销活动的效果进行可靠的估计。通过重抽样来创建多个样本，可以评估不同推广策略对销售、品牌认知等方面的影响。
销售预测： 对于销售数据，Bootstrap 方法可以用于创建多个可能的销售预测场景，进而计算销售额的置信区间。这有助于企业更好地理解销售预测的不确定性。
风险管理： 在金融和投资领域，Bootstrap 方法可以用于风险管理。通过对历史收益率或其他金融指标进行 Bootstrap 重采样，可以估计投资组合的价值-at-risk（VaR）等风险指标。
产品定价： Bootstrap 方法可以用于评估不同产品定价策略对利润的影响。通过模拟创建多个样本，可以计算不同定价策略下的利润分布，帮助企业做出更明智的定价决策。
市场研究： 在市场研究中，Bootstrap 方法可以用于创建多个可能的样本，评估不同市场趋势和消费者行为的影响。这对于制定市场策略和预测市场需求十分有用。
人力资源管理： 在人力资源领域，Bootstrap 方法可以用于对员工满意度、绩效评估等指标进行抽样，以获得更准确的统计估计。这有助于企业制定更有效的人力资源策略。
质量管理： 在制造业或服务业中，Bootstrap 方法可以用于对产品或服务质量指标进行估计，帮助企业识别潜在的质量问题并改进质量管理流程。

9.3 场景与例子：Bootstrap t 检验

假设你有一个小样本，想要进行 t 检验，但是数据不满足正态分布。使用 Bootstrap 方法可以对 t 统计量进行重采样，从而估计其分布。

import numpy as np

# 创建测试数据（两个独立样本）
data_A = np.random.normal(0, 1, 20)
data_B = np.random.normal(1, 1, 20)

# Bootstrap 方法进行 t 检验
def bootstrap_t_test(data_A, data_B, num_samples=1000):
    t_statistic = np.mean(data_A) - np.mean(data_B)

    # 合并数据
    combined_data = np.concatenate((data_A, data_B))

    bootstrap_samples = []
    for _ in range(num_samples):
        # 有放回地抽样
        bootstrap_sample = np.random.choice(combined_data, size=len(combined_data), replace=True)
        bootstrap_samples.append(np.mean(bootstrap_sample[:len(data_A)]) - np.mean(bootstrap_sample[len(data_A):]))

    # 计算p值
    p_value = (np.abs(bootstrap_samples) >= np.abs(t_statistic)).mean()

    return t_statistic, p_value

# 执行 Bootstrap t 检验
t_statistic, p_value = bootstrap_t_test(data_A, data_B)

# 输出结果
print(f"Bootstrap t统计量: {t_statistic}")
print(f"P值: {p_value}")