数分基础（05）中心极限定理、假设检验与AB测试简介

dotdotyy

已于 2024-09-03 15:46:59 修改

阅读量1k

点赞数 28

分类专栏：数据分析数据分析基础基础文章标签：数据分析

于 2024-09-03 14:29:04 首次发布

本文链接：https://blog.csdn.net/dotdotyy/article/details/141859111

版权

基础同时被 3 个专栏收录

58 篇文章 3 订阅

订阅专栏

数据分析

10 篇文章 0 订阅

订阅专栏

数据分析基础

9 篇文章 0 订阅

订阅专栏

1. 中心极限定理

1.1 概念

是统计学中的一个核心概念：当样本量足够大时，无论总体分布形状如何，样本均值的分布都会趋近于正态分布

1.2 直观理解

假设我们有一组数据，从中不断地抽取样本并计算每个样本的平均值，这些均值会形成一个分布。无论原始数据是什么分布，当样本足够大时，这些平均值的分布会接近于“钟形”的正态分布。

1.3 重要性

中心极限定理为我们提供了使用正态分布进行统计推断的依据，即使原始数据不是正态分布。

2. 示例

2.1 数据集

我们仍旧使用这个数据集，数分基础（01）示例数据集Global_Superstore

使用其中的“销售额”列数据，随机抽取不同样本大小的子集，并计算这些样本的均值，观察样本均值的分布变化。

2.2 验证思路

为了达到我们的设想，以终为始

（1）获取一个样本均值

从原始数据中随机抽取若干个数据点（样本），这些数据点的平均值。例如，我们从销售额这一列中随机抽取10个数值（样本量=10），就能够集散一个样本均值。

（2）假设抽取1000次

假设样本量=10，我们重复（1）1000次，每次都会获得10个样本的一个均值，这1000次的均值（每次10个）会是不同的值，将这些值绘制直方图，显示分布情况。

（3）增大样本容量

观察随着样本数量增加，均值分布是否趋于正态分布。来验证“当样本足够大时，这些平均值的分布会接近于“钟形”的正态分布”。

2.3 实现

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# 加载数据集
file_path = 'Global_Superstore2.xlsx'
excel_data = pd.ExcelFile(file_path)
sheet_names = excel_data.sheet_names
data = pd.read_excel(file_path, sheet_name='Sheet1')

# 从数据集中提取销售额数据
sales_data = data['Sales']

# 设置不同的样本量
sample_sizes = [10, 50, 100, 500]

# 设置中文字体为 SimHei（黑体），在绘图前设置字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 绘制均值的分布
plt.figure(figsize=(12, 8))

for i, size in enumerate(sample_sizes):
    # 生成样本均值的分布
    sample_means = [np.mean(np.random.choice(sales_data, size, replace=False)) for _ in range(1000)]
    plt.subplot(2, 2, i + 1)
    plt.hist(sample_means, bins=30, color='skyblue', alpha=0.7)
    plt.title(f'样本数量 = {size}')
    plt.xlabel('样本均值') 
    plt.ylabel('频率')    
    plt.grid(True)

plt.tight_layout()
plt.show()

这行代码的意思是：

sample_means = [np.mean(np.random.choice(sales_data, size, replace=False)) for _ in range(1000)]

从销售额数据sales_data中随机抽取指定数量（‘size’）的数据，计算均指，并重复这个过程1000次。每次计算得到的均值存储在sample_means列表中

plt.hist()

plt.hist(sample_means, bins=30, color='skyblue', alpha=0.7)

绘制直方图，‘sample_means’作为输入，表示将列表中的1000个数值进行统计绘图
bins=30，将1000个值分成30个区间（柱子），每个柱子的宽度代表均值的范围，高度代表这个范围内的均指出现的次数（频率），并设置柱子的颜色和透明度。

直方图的每个柱子（条形）代表一个样本均值区间的出现次数（频率）
柱子的高度越高，该样本均值范围内的次数越多
如果某个区间（例如，200-210）对应的柱子的高度为80，意味着在1000次抽样中，样本均值落在200-210之间的情况出现了80次

2.4 结果

在这里插入图片描述
当样本量较小时，左上角=10，样本均值的分布并不是正态分布，随着样本量增加到100，或者500，样本均值的分布逐渐趋向于“钟形”的正态分布

直观地验证了中心极限定理：无论总体分布是什么形状（偏态分布、均匀分布等），当样本量足够大时，样本均值的分布会趋近于正态分布。

也就意味着，即便我们面对的是非正态分布的原始数据，只要样本量大，样本均值就是正态分布的，就可以应用依赖正态分布的统计推断，z检验、t检验等。

2. 假设检验

利用数据集中的运输方式和销售额来看假设检验。我们在Ship Mode中可以看到有不同的运输方式，现在，我们验证两种运输方式：Same Day 和 Second Class 下的平均销售额是否存在显著差异。
在这里插入图片描述

2.1 总体思路

设定原假设（H0）和备择假设（H1）
选择合适的统计检验方法（如 t 检验）
从样本数据中计算相应的统计量
根据统计量和p值，判断是否拒绝原假设

2.2 比较两种运输方式的平均销售额

（1）提出假设

原假设（H0）： Same Day 运输方式和 Second Class 运输方式的平均销售额无显著差异
备择假设（H1）：Same Day 运输方式的平均销售额显著高于Second Class

（2）检验方法

使用独立样本T检验比较两组均指，两组数据相互独立，样本量较大。

T检验是一种统计检验方法，当样本量较小，或总体标准差未知时，用于检验样本均值与总体均值的差异，或比较两个样本均值。
在这里插入图片描述

使用条件：

样本量较小（ n < 30），且总体标准差未知
数据近似正态分布或样本来自正态分布
总体方差未知且需从样本数据中估计标准差

（3）计算检验统计量

提取 Same Day 和 Second Class 的销售额，并进行 t 检验

from scipy.stats import ttest_ind

# 提取不同运输方式的销售额数据
same_day_sales = data[data['Ship Mode'] == 'Same Day']['Sales']
second_class_sales = data[data['Ship Mode'] == 'Second Class']['Sales']

# 计算样本均值
mean_same_day = same_day_sales.mean()
mean_second_class = second_class_sales.mean()

# 执行独立样本t检验
t_stat, p_value = ttest_ind(same_day_sales, second_class_sales, equal_var=False)

# 打印结果
print(f"Same Day 平均销售额: {mean_same_day:.2f}")
print(f"Second Class 平均销售额: {mean_second_class:.2f}")
print(f"T统计量: {t_stat:.2f}")
print(f"p值: {p_value:.4f}")

运行结果为

Same Day 平均销售额: 247.02
Second Class 平均销售额: 248.88
T统计量: -0.18
p值: 0.8559

Scipy 科学计算库，ttest_ind函数，执行独立样本T检验，比较两组独立样本的均指是否存在显著差异，例如对比两组实验结果、两种方案的效果等。

常用于A/B测试、医学实验等，判断两组之间的均指差异是否是由随机误差引起，还是由于实际的显著差异引起。

ttest_ind主要参数：
ttest_ind(a, b, equal_var=True, nan_policy=‘propagate’, alternative=‘two-sided’)

a：第一组样本数据（数组或列表）
b：第二组样本数据（数组或列表）
equal_var：是否假设两组数据具有相等的方差
True（默认值）：假设两组方差相等
False：不假设方差相等

nan_policy：处理缺失值的策略。
‘propagate’（默认）：如果存在 NaN，则返回 NaN
‘omit’：忽略 NaN 值
‘raise’：遇到 NaN 值时报错

alternative：定义双尾或单尾检验类型
‘two-sided’（默认）：双尾检验
‘less’：单尾检验，测试是否 a 的均值小于 b
‘greater’：单尾检验，测试是否 a 的均值大于 b

t_stat：T 统计量，用于衡量样本均值的差异程度。T 值越大，均值差异越明显。
p_value：p 值，用于判断差异的显著性。通常，如果 p 值小于显著性水平（例如 0.05），我们认为差异显著，拒绝原假设
通过判断 T 统计量和 p 值，可以评估两组数据的差异性，并为后续行动提供数据支持

（4）结果解释

平均销售额，Same Day 方式的平均销售额约为 247.02 Second Class 运输方式的平均销售额约为 248.88

Same Day 平均销售额: 247.02
Second Class 平均销售额: 248.88
T统计量: -0.18
p值: 0.8559

t 统计量 -0.18 ，接近于0 ，均值差异不明显
p 值 0.8559 ，远大于 0.05 ，差异不显著，不能拒绝原假设 —— Same Day 运输方式和 Second Class 运输方式的平均销售额无显著差异

意味着，在决策时，如果销售额是主要考虑的问题，选择“Same Day”运输方式，并不会带来显著的销售提升，或许可以考虑成本、运输效率。

3. A/B测试

简要说下A/B测试，是一种对比测试，通过对比两种方案的效果来评估哪种更优。常用于网站设计、广告优化、产品定价等。

例如希望评估两种运输方式对销售额的影响，看看是否有显著差异。那么可以将上面的 Same Day 运输方式设为 A 组， Second Class 运输方式设为 B 组。

测试的目标为，Same Day 运输方式是否能带来更高的销售额。

在实际中，可以随机将用户分配到不同的实验组。然后收集两组的销售额数据。对比两组表现。使用统计检验判断差异是否显著。

在这个数据集示例中，我们已有两组数据【假设是上述方案设计下收集来的】，且已经进行了分析，且判断了差异并不显著。

也就是说，我们可以根据测试结果，优化商业方案，例如这里，帮助我们评估运输方式对销售额的影响。假如运输方式对销售额的影响有显著的差异，就可以选择销售额高的运输方式。这样通过小规模的实验，能够降低全局实施的风险。

dotdotyy

关注

28
点赞
踩
29

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

数分基础（05）中心极限定理、假设检验与AB测试简介

文章目录

1. 中心极限定理

1.1 概念

1.2 直观理解

1.3 重要性

2. 示例

2.1 数据集

2.2 验证思路

（1）获取一个样本均值

（2）假设抽取1000次

（3）增大样本容量

2.3 实现

2.4 结果

2. 假设检验

2.1 总体思路

2.2 比较两种运输方式的平均销售额

（1）提出假设

（2）检验方法

（3）计算检验统计量

（4）结果解释

3. A/B测试