python中关于seaborn书籍_大白话Python绘图系列: Seaborn篇

本文是Python中Seaborn绘图的快速入门教程,通过12个简洁的例子,包括直方图、柱状图、点图、双变量图等,展示Seaborn的强大绘图能力。使用Iris数据集进行实战,帮助读者快速掌握Seaborn的常用绘图方法。
摘要由CSDN通过智能技术生成

1. 目的

了解python第三方绘图包seaborn,从常用绘图实例开始,体验seaborn绘图。建议用时: 10分钟

绘图例子: 12个

每个例子代码量: 1-6行, 90%仅1行

1.1 环境ipython notebook

安装python包:seaborn

matplotlib

pandas

numpy

2. Seaborn快速绘图

2.1 练习数据

seaborn自带很多练习数据, 见: seaborn data

我们任选一个数据集,比如: Iris, 当做绘图数据使用, 简单介绍该数据来源:

Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。加载Iris数据

import seaborn as sn

import pandas as pd

import matplotlib.pyplot as plt

import numpy as np

%matplotlib inline

# 加载seaborn自带数据: iris

df = sn.load_dataset("iris")

df.head()输出结果:

2.2 数据集洞察代码: 1行

先简单看下该数据基本统计信息:样本数量: count

平均值: mean

标准差: std

最小值: min

最大值: max

25%, 50%, 75%分位数

df.descirbe()输出结果:

2.3 分类聚集代码: 1行

场景: 样例两个属性, 一个是离散分类,一个是连续值,希望一张图绘出每类的散点图

方法:stripplot: 可以绘制分类数据的散点图,由于过多的点会聚集一处,使用jitter 进行随机抖动,以在每一个分类数据中对应变量在某一点的集中/分布趋势。

swarmplot: 函数会使用内置的算法对数据进行抖动,保证点不会重合

talk is cheap, show u code.

# swarm绘图散点以树状连接个点, 不重合

sn.swarmplot(x="species", y="petal_length", data=df, size=10)

# 可以体验下与下面绘图结果的不同:

# sn.stripplot(x='species', y='petal_length', data=df, jitter=True)输出结果:

2.4 直方图代码: 1行

场景: 连续属性分段查看分布

sn.distplot(df.sepal_length, bins=20, kde=True, rug=True)输出结果:

2.5 柱状图代码: 1行

场景: 连续属性分段查看分布

sn.barplot(x='species', y='sepal_length', data=df)输出结果:

2.6 点图代码: 1行

介绍: 表示一个数值的中心趋势的估计。根据散点图点的位置变化,并提供一些,用误差线表示该估计的不确定性

# 点图

sn.pointplot(x='species', y='sepal_length', data=df)输出结果:

2.7 双变量图代码: 1行

sn.jointplot(x='sepal_length', y='sepal_width', data=df)

# 尝试改变属性值

# sn.jointplot(x='x', y='y', data=df2, kind='hex')

# sn.jointplot(x='x', y='y', data=df2, kind='kde')输出结果:

2.8 热力图代码: 1行

# 取10个样本, 查看不同属性的值, 用热力图显示

sn.heatmap(df.iloc[:10,:4])输出结果:

2.9 箱图代码: 1行

sn.boxplot(x='species', y='sepal_length', data=df)输出结果:

2.10 小提琴图代码: 6行

# 场景: 看密度分布比较形象具体

fig, axes = plt.subplots(2,2, figsize=(20,20))

sn.violinplot(x='species', y='sepal_length', data=df, ax=axes[0,0])

sn.violinplot(x='species', y='sepal_length', data=df, ax=axes[0,1], hue='species')

sn.violinplot(y='species', x='sepal_length', data=df, ax=axes[1,0], hue='species', inner='stick')

sn.violinplot(y='species', x='sepal_length', data=df, ax=axes[1,1], hue='species', inner=None)

sn.swarmplot(y='species', x='sepal_length', data=df, ax=axes[1,1],alpha=.5, hue='species',color="r")输出结果:

2.11 线性拟合代码: 1行

场景: 查看两列关系

sn.lmplot(x='sepal_length', y='petal_length', data=df)输出结果:

2.12 非线性拟合代码: 1行

场景: 查看两列关系, 下面用二次多项式

sn.regplot(x='sepal_length', y='petal_length', order=2, data=df)输出结果:

2.13 数据集两两属性关系代码: 2行

场景: 当需要快速了解数据集中属性两两关系时. 数据需要是连续值且非空

# 相同变量直方图显示, 不同变量散点图显示, 其中数据中不能含有NaN

l = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']

sn.pairplot(df[l])输出结果:

2.14 Grid自定义绘制场景: 多子图显示

# 多图绘制: 数据集某属性species, 将数据集分三类

# 下面, 一次性汇出三类数据的直方图

g = sn.FacetGrid(df,col="species")

g.map(plt.hist,"sepal_length")

g.add_legend()输出结果:

3. About Me

来自北京回龙观的一名数据民工, 2019年开始写写数据民工那些大白话微信公众号: workindata

个人微信号: ITlooker

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值