箱图-boxplot

箱图

在这里插入图片描述
箱图是一种统计图形,用于展示一组数据的分布特征和离散程度。它通过展示数据的五个关键统计量(最小值、下四分位数、中位数、上四分位数和最大值)来呈现数据的整体概况。箱图通常由一个矩形箱体和两条“触须”(whiskers)组成。

下面是箱图的几个关键元素:

  1. 矩形箱体:箱体的上边界表示上四分位数(Upper Quartile),下边界表示下四分位数(Lower Quartile),而中间的线代表中位数(Median)。
  2. 上下触须:触须是延伸自箱体的线段,通常取距离上下四分位数一个固定倍数的标准差(常见的倍数为1.5或2)。触须之外的数据点被视为异常值。
  3. 异常值:超出触须范围的数据点通常被认为是异常值,用单独的点表示。

箱图的作用和优势包括:

  1. 概览数据分布:箱图可以提供对数据集整体分布的直观了解。通过观察箱体的位置、长度和对称性,可以判断数据的集中趋势、分散程度以及是否存在异常值。
  2. 检测异常值:箱图可以有效地帮助识别数据集中的异常值。异常值通常是远离箱体的数据点,通过观察箱体之外的触须和离群点,可以快速检测到异常情况。
  3. 比较分组数据:箱图可以将多个分组或类别的数据进行比较。通过将多个箱图放置在一起,可以直观地比较各组数据的中位数、四分位数等统计特征。

箱图在许多应用场景中都得到了广泛的应用,包括:

  1. 异常检测:箱图可以用于识别异常值,帮助分析人员发现数据中的异常情况。通过观察箱体之外的触须和离群点,可以辨别出与其他数据点显著不同的异常值。

  2. 比较群体或组间差异:箱图适用于比较不同群体或组之间的数据差异。通过在同一个图表中展示多个箱图,可以快速比较它们的中位数、四分位数、分布形状等,从而发现不同群体之间的差异。

  3. 数据分布分析:箱图可以帮助分析人员了解数据的分布情况。通过观察箱体的位置、长度和对称性,可以判断数据的集中趋势、分散程度以及是否存在偏斜或离散情况。

  4. 时间序列分析:箱图可以用于可视化时间序列数据的分布特征。通过绘制多个时间点或时间段的箱图,可以观察到随时间的变化和趋势,并对数据的稳定性和变异性进行分析。

  5. 数据预处理:在数据预处理阶段,箱图可以帮助分析人员检查数据中的异常值和离群点,并采取适当的处理措施,如删除、替换或调整。

总而言之,箱图是一种常用的数据可视化工具,在数据分析中起着重要的作用。它可以提供对数据集整体分布和特征的直观理解,帮助发现异常值、比较群体差异和分析数据的分布情况。

箱图绘图示例

绘制sklearn库中鸢尾花数据集(iris)的箱图。

查看鸢尾花数据集
from sklearn import datasets 
import pandas as pd
import numpy as np

iris = datasets.load_iris()    # 加载鸢尾花数据集
# pd_iris = pd.DataFrame(iris.data, columns=iris.feature_names)
# pd_iris.head()
list1 = iris.feature_names
list1.append('class')
pd_iris = pd.DataFrame(np.hstack((iris.data, iris.target.reshape(150, 1))), columns=list1)    # 转换为DataFrame
pd_iris.head()     # 查看一下数据集前n条数据

在这里插入图片描述

查看数据的统计信息
pd_iris['sepal width (cm)'].describe()    # 查看sepal length (cm)列数据的统计信息

在这里插入图片描述

使用seaborn库绘制箱型图
import seaborn as sns
import matplotlib.pyplot as plt
sns.boxplot(pd_iris['sepal width (cm)'])

在这里插入图片描述
友情链接:使用seaborn库绘制boxplot,设置绘图格式

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值