stripplot(分布散点图)
先总览一下stripplot的API:
seaborn.stripplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, jitter=False, dodge=False, orient=None, color=None, palette=None, size=5, edgecolor='gray', linewidth=0, ax=None, **kwargs)
接下来就直接上代码演示,首先导入相应的包。
import seaborn as sns
%matplotlib inline
sns.set(font_scale=1.5,style="white")
sns.set_context({"figure.figsize":(10,8)})
下面是本次演示所使用的数据集:
data=sns.load_dataset("tips")
data.head()
我们先来看一下stripplot是什么样的
sns.stripplot(x="time",y="total_bill",data=data)
可以看到stripplot的作图原理就是按照x属性所对应的类别分别展示y属性的值,适用于分类数据。上图就是不同饭点的账单总金额的散点图。
接下来讲解一下stripplot的主要参数,在这里我们只讲stripplot特有的一些参数,其他一些seaborn中常见参数的介绍可以翻看之前的文章。
x:设置分组统计字段
y:设置分布统计字段
jitter:当数据点重合较多时,可用该参数做一些调整
sns.stripplot(x="time",y="total_bill", data=data,jitter=True)
可以看到,之前重合的数据点分散开了
在对time属性分类后,利用hue参数进行内部的分类
sns.stripplot(x="time",y="total_bill",data=data,jitter=True,hue="day")
那如果我想把组内的不同类别分开来显示呢?这时候就用dodge参数
dodge:控制组内分类是否彻底分拆
sns.stripplot(x="time",y="total_bill",data=data,jitter=True,hue="day",dodge=True)
order:对x参数所选字段内的类别进行排序以及筛选
sns.stripplot(x="time",y="total_bill",data=data,jitter=True,hue="day",dodge=True,order=["Dinner","Lunch"])
可以看到x轴上原本的Dinner和Lunch类别的前后顺序变了
sns.stripplot(x="time",y="total_bill",data=data,jitter=True,hue="day",dodge=True,order=["Dinner"])
可以看到x轴上原本的Lunch类别没有了,stripplot的演示就到此为止
swarmplot(分簇散点图)
sns.swarmplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, dodge=False, orient=None, color=None, palette=None, size=5, edgecolor='gray', linewidth=0, ax=None, **kwargs)
swarmplot和stripplot的用法其实差不多,我们来看看两种图之间有什么区别,还是使用之前的数据集。
sns.swarmplot(x="day",y="total_bill",data=data)
可以看到swarmplot将不同类别的散点图以树状来显示,其他参数用法和stripplot一致,下面简单演示一下。
sns.swarmplot(x="day",y="total_bill",data=data,hue="sex",dodge=True)
sns.swarmplot(x="day",y="total_bill",data=data,hue="sex",dodge=True,palette="husl")
sns.swarmplot(y="day",x="total_bill",data=data,hue="sex",dodge=True,palette="husl")
boxplot
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。它能显示出一组数据的最大值、最小值、中位数及上下四分位数。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。图解如下:
接下来我们介绍Seaborn中的箱型图的具体实现方法,这是boxplot的API:
seaborn.boxplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, orient=None, color=None, palette=None, saturation=0.75, width=0.8, dodge=True, fliersize=5, linewidth=None, whis=1.5, notch=False, ax=None, **kwargs)
我们从具体的实例出发
%matplotlib inline
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
plt.rc("font",family="SimHei",size="15") #解决中文乱码问题
本文所使用的数据集是鸢尾花卉数据集
x,y:dataframe中的列名(str)或者矢量数据
data:dataframe或者数组
sns.boxplot(x=data["pw"],data=data)
palette:调色板,控制图像的色调
fig,axes=plt.subplots(1,2,sharey=True)
sns.boxplot(x="catagory",y="pw",data=data,ax=axes[0]) #左图
sns.boxplot(x="catagory",y="pw",data=data,palette="Set3",ax=axes[1]) #右图
hue(str):dataframe的列名,按照列名中的值分类形成分类的条形图
sns.boxplot(x="color",y="pl",data=data,hue="catagory",palette="Set3")
order, hue_order (lists of strings):用于控制条形图的顺序
sns.boxplot(x="catagory",y="pw",data=data,palette="Set3",order=[2,1,0])
orient:"v"|"h" 用于控制图像使水平还是竖直显示(这通常是从输入变量的dtype推断出来的,此参数一般当不传入x、y,只传入data的时候使用)
fig,axes=plt.subplots(2,1)
sns.boxplot(data=data,orient="v",palette="Set3",ax=axes[0]) #竖直显示
sns.boxplot(data=data,orient="h",palette="Set3",ax=axes[1]) #水平显示
fliersize:float,用于指示离群值观察的标记大小
whis:确定离群值的上下界(IQR超过低和高四分位数的比例),此范围之外的点将被识别为异常值。IQR指的是上下四分位的差值。
fig,axes=plt.subplots(1,2)
sns.boxplot(x="color",y="pl",data=data,whis=1,ax=axes[0]) #左图
sns.boxplot(x="color",y="pl",data=data,whis=2,ax=axes[1]) #右图
width:float,控制箱型图的宽度
fig,axes=plt.subplots(1,2)
sns.boxplot(x="color",y="pl",data=data,width=0.3,ax=axes[0]) #左图
sns.boxplot(x="color",y="pl",data=data,width=0.8,ax=axes[1]) #右图
violinplot
violinplot与boxplot扮演类似的角色,它显示了定量数据在一个(或多个)分类变量的多个层次上的分布,这些分布可以进行比较。不像箱形图中所有绘图组件都对应于实际数据点,小提琴绘图以基础分布的核密度估计为特征。具体用法如下:
seaborn.violinplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, bw='scott', cut=2, scale='area', scale_hue=True, gridsize=100, width=0.8, inner='box', split=False, dodge=True, orient=None, linewidth=None, color=None, palette=None, saturation=0.75, ax=None, **kwargs)
实例所用的数据集如下:
data.head(6)
在这里就不再介绍x,y,hue,data,order,hue_order,palette参数的用法,这些参数的用法和之前介绍的图形的用法是一样的,如有需要可以查看之前的内容。
先来画一个小提琴图:
sns.violinplot(x="gender",y="age",data=data)
split:将split设置为true则绘制分拆的violinplot以比较经过hue拆分后的两个量:
fig,axes=plt.subplots(2,1)
ax=sns.violinplot(x="color",y="age",data=data,hue="smoker",split=True,ax=axes[0]) #上图,拆分后的图
ax=sns.violinplot(x="color",y="age",data=data,hue="smoker",ax=axes[1]) #下图
scale_hue:bool,当使用色调变量(hue参数)嵌套小提琴时,此参数确定缩放是在主要分组变量(scale_hue = true)的每个级别内还是在图上的所有小提琴(scale_hue = false)内计算出来的。
fig,axes=plt.subplots(2,1)
ax=sns.violinplot(x="color",y="age",data=data,hue="smoker",split=True,scale_hue=False,ax=axes[0]) #上图
ax=sns.violinplot(x="color",y="age",data=data,hue="smoker",split=True,scale_hue=True,ax=axes[1]) #下图
orient:"v"|"h" 用于控制图像使水平还是竖直显示(这通常是从输入变量的dtype推断出来的,此参数一般当不传入x、y,只传入data的时候使用)
fig,axes=plt.subplots(2,1)
sns.violinplot(data=data[["height","weight","age"]],orient="v",ax=axes[0]) #上图
sns.violinplot(data=data[["height","weight","age"]],orient="h",ax=axes[1]) #下图
inner:控制violinplot内部数据点的表示,有“box”, “quartile”, “point”, “stick”四种方式。
fig,axes=plt.subplots(2,2)
sns.violinplot(x="color",y="age",data=data,inner="box",ax=axes[0,0]) #钢琴图内显示箱型图(左上)
sns.violinplot(x="color",y="age",data=data,inner="quartile",ax=axes[0,1]) #钢琴图内显示四分位数线(右上)
sns.violinplot(x="color",y="age",data=data,inner="point",ax=axes[1,0]) #钢琴图内显示具体数据点(左下)
sns.violinplot(x="color",y="age",data=data,inner="stick",ax=axes[1,1]) #钢琴图内显示具体数据棒(右下)
scale:该参数用于缩放每把小提琴的宽度,有“area”, “count”, “width”三种方式
fig,axes=plt.subplots(3,1)
sns.violinplot(x="color",y="age",data=data,scale="area",ax=axes[0]) #如果为"area",每把小提琴将有相同的面积(上图)
sns.violinplot(x="color",y="age",data=data,scale="count",ax=axes[1]) #如果为"count",小提琴的宽度将根据该小组中观察的数量来缩放(中图)
sns.violinplot(x="color",y="age",data=data,scale="width",ax=axes[2]) #如果为"age",每把小提琴将有相同的宽度(下图)
cut:float,距离,以带宽大小为单位,以控制小提琴图外壳延伸超过内部极端数据点的密度。设置为0以将小提琴范围限制在观察数据的范围内(即,在ggplot中具有与trim = true相同的效果)
fig,axes=plt.subplots(2,1)
sns.violinplot(x="age",y="gender",data=data,ax=axes[0]) #上图
sns.violinplot(x="age",y="gender",data=data,cut=0,ax=axes[1]) #下图
width:float,控制钢琴图的宽度(比例)
fig,axes=plt.subplots(2,1)
sns.violinplot(x="color",y="age",data=data,ax=axes[0],width=0.5) #上图
sns.violinplot(x="color",y="age",data=data,ax=axes[1],width=0.9) #下图