使用seaborn作图并不多,记录也不详尽,之后如果用的多再进行补充。
seaborn其实是在matplotlib的基础上进行了更高级的API封装,使得作图更加容易。
- 在matplotlib上构建,支持numpy和pandas的数据结构可视化
- 多个内置主题及颜色主题
- 可视化单一变量、二维变量用于比较数据集中各变量的分布情况
- 可视化线性回归模型中的独立变量及不独立变量
加载包:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.rcParams['font.sans-serif']='SimHei'
plt.rcParams['axes.unicode_minus']=False
1. 单变量分布
1.1 直方图
#x1=np.random.normal(size=1000)
#sns.distplot(x1);
x2=np.random.randint(0,100,500)
sns.distplot(x2);
sns.distplot(x2,bins=20,kde=False,rug=True)
1.2 核密度估计
sns.distplot(x2,hist=False,rug=True)
2. 双变量分布
构造数据
df_obj1=pd.DataFrame({'x':np.random.randn(500),
'y':np.random.randn(500)})
df_obj2=pd.DataFrame({'x':np.random.randn(500),
'y':np.random.randint(0,100,500)})
print('df_obj1:','\n',df_obj1.head(3),'\n')
print('df_obj2:','\n',df_obj2.head(3))
2.1 散布图
sns.jointplot(x='x',y='y',data=df_obj1)
sns.jointplot(x='x',y='y',data=df_obj1,kind='hex')
#kind='kde'核密度估计
2.2 变量关系
准备数据
dataset=sns.load_dataset('tips')
print(dataset.columns,'\n')
print(dataset.head())
相关图:
#只对连续变量作用
sns.pairplot(dataset)
3. 类别数据可视化
数据:
#titanic=sns.load_dataset('titanic')
#planets=sns.load_dataset('planets')
#flights=sns.load_dataset('flights')
exercise=sns.load_dataset('exercise')
exercise.head()
3.1 类别散布图
3.1.1 sns.stripplot
sns.stripplot(x='diet',y='pulse',data=exercise,jitter=True,size=7)
3.1.2 sns.swarmplot()
sns.swarmplot(x='diet',y='pulse',data=exercise,hue='kind',size=7)
3.2 类别箱线图
plt.figure(figsize=(12,6))
plt.subplot(1,2,1)
sns.boxplot(x='diet',y='pulse',data=exercise)
plt.subplot(1,2,2)
sns.violinplot(x='diet',y='pulse',data=exercise,hue='kind')
#hue指定类别
3.3 类别柱形图
sns.barplot(x='diet',y='pulse',data=exercise,hue='kind')
3.4 类别点图
sns.pointplot(x='diet',y='pulse',data=exercise,hue='kind')