箱型图和小提琴图基本使用和解释

本文介绍了箱型图和小提琴图这两种数据可视化工具,用于展示和比较不同组间数据分布。箱型图强调中位数、四分位数和异常值,适合总体分布;小提琴图提供更详细的数据密度信息。通过实例展示了两者在比较学生成绩分布上的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

箱型图和小提琴图都是数据可视化工具,用于展示数据的分布情况和统计信息,尤其是在比较不同组或变量之间的数据分布时非常有用。下面是它们的基本使用和如何解释的一些指导:

箱型图 (Box Plot):

  1. 中位数 (Median):箱型图中的水平线表示数据的中位数,即数据的中间值。

  2. 上四分位数 (Upper Quartile, Q3)下四分位数 (Lower Quartile, Q1):箱型图的箱体部分代表数据的25% 到 75% 范围,也就是数据的中间50%。箱体的上边界是Q3,下边界是Q1。

  3. 箱体长度 (IQR, Interquartile Range):IQR表示Q3和Q1之间的范围,用于度量数据的分散度。

  4. 异常值 (Outliers):箱型图中的小圆点或星号表示可能存在的异常值,即与数据的中心足够远的数据点。异常值通常定义为小于Q1 - 1.5 * IQR或大于Q3 + 1.5 * IQR的数据点。

  5. 箱型图的须 (Whiskers):箱型图的上须和下须通常是指从箱体边界到最大和最小非异常值的线段。

解释箱型图的一般步骤:

  • 数据的中位数是箱体中的横线。
  • 箱体表示数据的中间50%。
  • 须表示数据的范围,排除了异常值。
  • 异常值是位于须之外的数据点。

小提琴图 (Violin Plot):

小提琴图与箱型图相比,提供了更多信息和更丰富的数据分布展示。

  1. 宽度 (Width):小提琴图的宽度在不同数据值上变化,反映了在该位置上的数据密度。较宽的部分表示数据更密集,而较窄的部分表示数据较稀疏。

  2. 内部小提琴 (Inner Violin):内部小提琴包括了数据的核密度估计,显示数据的主要分布。

  3. 外部形状 (Outer Shape):外部形状表示了数据的总体分布,可以帮助观察数据的模式和偏斜。

解释小提琴图的一般步骤:

  • 小提琴图的宽度表示数据密度的变化。
  • 内部小提琴反映主要的数据分布,通常是数据的核密度估计。
  • 外部形状提供了总体数据分布的视觉信息。

在比较箱型图和小提琴图时,箱型图更适合查看数据的总体分布和异常值,而小提琴图提供了更详细的分布信息和密度估计。选择使用哪种图表取决于您关心的数据方面以及需要传达的信息。

让我们通过一个示例来解释箱型图和小提琴图,以展示它们的用途和如何解释它们。

示例:考虑一个班级的学生成绩数据,我们想要比较不同性别学生的成绩分布。

首先,让我们生成一些模拟数据:

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 创建模拟数据
np.random.seed(2)
n_students = 200
male_scores = np.random.normal(70, 10, n_students)
female_scores = np.random.normal(75, 8, n_students)

data = pd.DataFrame({'Gender': ['Male'] * n_students + ['Female'] * n_students,
                     'Score': np.concatenate((male_scores, female_scores))
                    })
# 使用 Pandas 对 data 进行分组
grouped_data = data.groupby('Gender')

# 获取 'Male' 组的最大值和最小值
max_score_male = grouped_data.get_group('Male')['Score'].max()
min_score_male = grouped_data.get_group('Male')['Score'].min()

# 获取 'Female' 组的最大值和最小值
max_score_female = grouped_data.get_group('Female')['Score'].max()
min_score_female = grouped_data.get_group('Female')['Score'].min()

# 打印结果
print("Max Score (Male):", max_score_male)
print("Min Score (Male):", min_score_male)
print("Max Score (Female):", max_score_female)
print("Min Score (Female):", min_score_female)

Max Score (Male): 111.086926238052
Min Score (Male): 43.405505436165114
Max Score (Female): 100.28772775636708
Min Score (Female): 54.95633494340484

现在,我们可以使用箱型图和小提琴图来比较不同性别学生的成绩分布。

箱型图示例:

plt.figure(figsize=(8, 6))
sns.boxplot(x='Gender', y='Score', data=data)
plt.title('Box Plot of Scores by Gender')
plt.show()

在这里插入图片描述

解释箱型图:

  • 箱型图显示了两个箱体,一个代表男性学生,一个代表女性学生。
  • 箱体的中间线表示中位数。在此示例中,男性学生的中位数略低于女性学生的中位数。
  • 箱体的上下边界分别表示上四分位数(Q3)和下四分位数(Q1),用于显示中间50% 的数据。
  • 须表示数据的范围,排除了异常值。
  • 在箱型图中,没有异常值。

小提琴图示例:

plt.figure(figsize=(8, 6))
sns.violinplot(x='Gender', y='Score', data=data)
plt.title('Violin Plot of Scores by Gender')
plt.show()

在这里插入图片描述
下面是我处理过的图,是为了能直观比较两者的长短
在这里插入图片描述

解释小提琴图:

  • 小提琴图显示了两个小提琴,一个代表男性学生,一个代表女性学生。
  • 小提琴的宽度表示在不同成绩水平上的数据密度。较宽的部分表示数据更密集,较窄的部分表示数据较稀疏。
  • 内部小提琴显示了主要的数据分布,通常是核密度估计。在此示例中,我们可以看到男性学生的成绩分布更宽,说明成绩分布的变化范围更大。
  • 外部形状提供了总体数据分布的信息。在此示例中,可以看到女性学生的成绩分布相对集中,而男性学生的成绩分布更广泛。

综上所述,箱型图和小提琴图都用于比较不同性别学生的成绩分布,但它们提供了不同层次的信息。箱型图更适合查看总体分布和异常值,而小提琴图提供了更详细的分布信息和数据密度估计。根据您的需求和所关心的信息,您可以选择使用适当的图表类型。

更多详细关于小提琴图的说明

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值