python panda 库箱线图_Python数据可视化:箱线图多种库画法

本文详细介绍了如何使用Python的Pandas、Matplotlib和Seaborn库绘制箱线图,展示了箱线图在数据分布分析中的应用。通过案例,解释了箱线图的组成部分,如四分位数、异常值,并提供了生成不同复杂程度箱线图的代码示例,包括男女生花费对比和年龄段分组的可视化。
摘要由CSDN通过智能技术生成

概念

箱线图通过数据的四分位数来展示数据的分布情况。例如:数据的中心位置,数据间的离散程度,是否有异常值等。

把数据从小到大进行排列并等分成四份,第一分位数(Q1),第二分位数(Q2)和第三分位数(Q3)分别为数据的第25%,50%和75%的数字。

四分位间距(Interquartilerange(IQR))=上分位数(upper quartile)-下分位数(lower quartile)

箱线图分为两部分,分别是箱(box)和须(whisker)。箱(box)用来表示从第一分位到第三分位的数据,须(whisker)用来表示数据的范围。

箱线图从上到下各横线分别表示:数据上限(通常是Q3+1.5

IQR),第三分位数(Q3),第二分位数(中位数),第一分位数(Q1),数据下限(通常是Q1-1.5

IQR)。有时还有一些圆点,位于数据上下限之外,表示异常值(outliers)。

(注:如果数据上下限特别大,那么whisker将显示数据的最大值和最小值。)

案例

1. 使用pandas自带的函数

使用pandas里的dataframe数据结构存放待显示的数据。如果希望显示的各个数据列表中,数据长度不一致,可以先用Series函数转换为Series数据,再存储到dataframe中,对应index的value值若不存在则为NaN。

下面我们随机生成4组数据,看看他们的箱线图。

【代码】

import numpy as np

import pandas as pd

from matplotlib import pyplot as plt

def list_generator(mean, dis, number): # 封装一下这个函数,用来后面生成数据

return np.random.normal(mean, dis * dis, number) # normal分布,输入的参数是均值、标准差以及生成的数量

# 我们生成四组数据用来做实验,数据量分别为70-100

y1 = list_generator(0.8531, 0.0956, 70)

y2 = list_generator(0.8631, 0.0656, 80)

y3 = list_generator(0.8731, 0.1056, 90)

y4 = list_generator(0.8831, 0.0756, 100)

# 如果数据大小不一,记得需要下面语句,把数组变为series

y1 = pd.Series(np.array(y1))

y2 = pd.Series(np.array(y2))

y3 = pd.Series(np.array(y3))

y4 = pd.Series(np.array(y4))

data = pd.DataFrame({"1": y1, "2": y2, "3": y3, "4": y4, })

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值