本文是数据科学与人工智能综合项目训练营python数据分析项目关于Matplotlib和Seaborn的个人总结。有些语法没写以节约空间,希望对大家有帮助。
项目流程(续)
Matplotlib介绍
Matplotlib是基于 Python 的图表绘图库,主要用于绘制2D图形,也可以绘制3D图形,操作简单,以渐进、交互方式实现数据可视化,对图像元素控制力强,可输出PNG、PDF、SVG和EPS等多种格式。在本实验中,用子模块pyplot进行基本绘图任务。 我们将分析超市不同字段之间的相互影响,绘制的部分图如下所示:
-
首先,我们绘制不同支付方式数量占比饼图,展示了不同支付方式顾客的比例; -
其次,我么绘制每日销量总和折线图,展示了每日销量的走势; -
最后,我们绘制了不同产品线不同支付方式的评分热力图,展示了不同生产线以及不同支付方式下顾客的评价。
Matplotlib主要绘图函数及参数:
-
使用Matplotlib中的
matplotlib.pyplot.plot()
函数绘制折线图,折线图能直观的看出数据的变化趋势。其主要参数如下:-
x
:离散或类别型,x坐标。 -
y
:数值型,y轴坐标。 -
color
:颜色。可选‘b’、‘r’、‘g’等。 -
marker
:点型。可选‘.’、‘,’、‘o’等。 -
linestyle
:线型。可选‘-’、‘--’、‘-.’等。 -
markeredgecolor
:==点的颜色。可选‘b’、‘r’、‘g’等==。 -
alpha
:颜色透明度。0-1的数值。
-
-
使用
matplotlib.pyplot.pie()
函数绘制饼状图,可以表示每组数据的频数的占比。其主要参数如下:-
x
:每组的频数。 -
explode
:数组,表示各个扇形之间的间隔,默认值为0。 -
labels
:列表,各个扇形的标签,默认值为None。 -
colors
:表示各个扇形的颜色,默认值为None。 -
radius
:扇形的半径。 -
autopct
:==在饼图中显示百分比数值。例如%.2f%%
是保留两位小数==。
-
-
使用Matplotlib中的
matplotlib.pyplot.bar()
函数绘制柱状图,其主要参数如下:-
x
:柱状图对应的横坐标。 -
height
:柱状图的高度。 -
width
:柱状图的宽度。 -
color
:柱状图的颜色。 -
align
:柱状图的中心位置。可选‘center’、‘left’等。 -
tick_label
:下标标签。
-
-
使用Matplotlib中的
matplotlib.pyplot.barh()
函数绘制条形图,其主要参数如下:-
y
:y坐标,数据类型为int或float类型。 -
width
:标量或类似数组的值表示条的宽度,数据类型为int或float类型。 -
height
:标量或类似数组的值表示条的高度,默认为0.8。 -
left
:标量或标量序列,表示条形左侧的X坐标(默认值为0)。 -
align
:{‘center’, ‘edge’}对齐Y坐标的底线(默认值为中心)。
-
-
使用Matplotlib中的
matplotlib.pyplot.barh()
函数绘制条形图,其主要参数如下:-
y
:y坐标,数据类型为int或float类型。 -
width
:标量或类似数组的值表示条的宽度,数据类型为int或float类型。 -
height
:标量或类似数组的值表示条的高度,默认为0.8。 -
left
:标量或标量序列,表示条形左侧的X坐标(默认值为0)。 -
align
:{‘center’, ‘edge’}对齐Y坐标的底线(默认值为中心)。
-
-
使用Matplotlib中的
matplotlib.pyplot.text()
函数在图像上添加文字。其主要的参数如下:-
x
:需要放置文字的横坐标。 -
y
:需要放置文字的纵坐标。 -
s
:需要添加的文字内容。
-
-
使用Matplotlib中的
matplotlib.pyplot.hist()
函数绘制直方图,直方图是一种统计报告图,形式上也是一个个的柱形,但是直方图用柱形高度表示频数,宽度表示组距,其长度和宽度均有意义。其主要参数如下:-
data
:绘图数据。 -
bins
:分组个数。 -
facecolor
:柱形的颜色。
-
-
使用Matplotlib中的
matplotlib.pyplot.scatter()
绘制散点图与气泡图。散点图用来描绘两个数值型特征的关系,散点大小可以表示为变量,则可以作出反映三个变量关系的气泡图,点的大小也可以表示成变量,展示四个变量间的关系。其主要参数如下:-
x
:x轴数据。 -
y
:y轴数据。 -
s
:散点的大小。 -
c
:散点的颜色。
-
-
使用Matplotlib中的
matplotlib.pyplot.imshow()
函数画热力图,以颜色的高亮程度表征数据集变量数值大小,直观快速获取信息,颜色越深的区域,代表当前样本在该变量的取值越大。其主要参数如下:-
x
:要绘制的数据,一般为二维数组。 -
cmap
:颜色图谱,默认绘制为RBG颜色空间。
-
-
使用Matplotlib中的
matplotlib.pyplot.polar()
函数画雷达图,其主要参数如下:-
theta
:每个标记所在射线与极径的夹角。 -
r
:每个标记到原点的距离。
-
-
==使用
matplotlib.axes.Axes.twinx()
函数创建共享xaxis的双轴== -
使用Matplotlib中的
matplotlib.pyplot.boxplot()
函数绘制箱线图,其主要参数如下:-
x
:要绘制箱线图的数据。 -
notch
:是否是凹口的形式展现箱线图,默认非凹口。 -
sym
:指定异常点的形状,默认为+号显示。 -
patch_artist
:是否填充箱体的颜色。 -
vert
:是否需要将箱线图垂直摆放,默认垂直摆放。 -
widths
:指定箱线图的宽度,默认为0.5。 -
labels
:设定x轴坐标。
-
Seaborn介绍:
Seaborn是Python中的一个统计图形库,建立在Matplotlib之上。Seaborn提供的主要功能如下所示:专门支持使用分类变量来显示观察结果或汇总统计数据;用于可视化单变量或双变量分布以及在数据子集之间进行比较的选项;各类因变量线性回归模型的自动估计与作图;方便查看复杂数据集的整体结构;用于构建多图块网格的高级抽象;可以轻松地构建复杂的可视化;对Matplotlib图形样式与几个内置主题的简洁控制;可以选择调色板工具,便于绘制不同的数据模式。Seaborn提供了多种图形API,可以实现关系图、分布图、分类图、回归图、矩阵图、多图网格、调色板以及一些实用功能。
Seaborn主要绘图函数及参数:
由于Seaborn将会参照R语言中的ggplot2包语法进行一次较大的更迭。这里简单介绍哈现版本相关语法:
-
使用Seaborn中的
seaborn.scatterplot()
绘制基础轴级函数,使用点云描述了两个变量的联合分布,其中每个点代表数据集中的一个观察值。其主要参数如下:-
x,y
:输入数据的变量,数据必须为数值型,其中x为横轴,y为纵轴 -
hue
:将产生具有不同颜色的点的分组变量,可以是分类特征或数值特征 -
data
:DataFrame对象,每列是一个变量,每行是一个观察值 -
size
:通过设置点的不同大小表示一个变量
-
-
使用Seaborn中的
seaborn.lineplot()
函数绘制线折线图,其主要参数如下:-
x,y
:输入数据的变量,数据必须为数值型,其中x为横轴,y为纵轴 -
hue
:将产生具有不同颜色的点的分组变量,可以是分类特征或数值特征 -
data
:DataFrame对象,每列是一个变量,每行是一个观察值 -
size
:通过设置点的不同大小表示一个变量
-
-
使用Seaborn中的
seaborn.distplot()
函数绘制直方图,其主要参数如下:-
a
: Series, 一维数组或列表,表示要输入的数据 -
bin
:分组个数 -
hist
:表示是否要绘制直方图(默认情况为True),若为False,则不绘制 -
kde
:是否绘制高斯核密度估计图 -
color
:表示直方图的颜色
-
-
使用Seaborn中的
seaborn.countplot()
函数绘制柱状图,显示每个类别中观测值的数量,可以被认为是针对类别变量的直方图,主要参数如下:-
x,y
:在x,y轴方向指定绘图的字段 -
hue
:将会产生具有不同颜色的元素的变量进行分组 -
data
:传入DataFrame对象,用于绘图的数据框
-
-
使用Seaborn中的
seaborn.barplot()
函数绘制柱状图,条形图用每个矩形的高度来表示数值变量的集中趋势的估计值,并提供误差条来显示估计值得不确定度,主要参数如下:-
x,y
:在x,y轴方向指定绘图的字段 -
hue
:将会产生具有不同颜色的元素的变量进行分组 -
data
:传入DataFrame对象,用于绘图的数据框
-
-
使用Seaborn中的
seaborn.boxplot()
函数绘制箱型图,箱形图以一种利于变量之间比较或不同分类变量层次之间比较的方式来展示定量数据的分布,主要参数如下:-
x
:在x轴方向指定绘图的字段 -
y
:在y轴方向指定绘图的字段 -
hue
:按照指定的字段进行分组绘制 -
data
:传入DataFrame对象,用于绘图的数据框
-
-
使用Seaborn中的
seaborn.violinplot()
函数绘制小提琴图,结合箱型图与核密度估计绘图,主要参数如下:-
x,y
:用于绘制长格式数据的输入 -
hue
:将会产生具有不同颜色的元素的变量进行分组 -
data
:用于绘制的数据集,如果x、y不存在那么会将数据按宽格式进行处理,否则应当为长格式 -
split
:当使用带有两种颜色的变量时,将split设置为 True 则会为每种颜色绘制对应半边小提琴,从而可以更容易直接的比较分布
-
-
使用Seaborn中的
seaborn.heatmap()
函数绘制热力图,将数据绘制为颜色编码矩阵,主要参数如下:-
data
:用于绘图的数据框,DataFrame对象 -
vmin,vmax
:图例中最大值和最小值的显示值 -
annot
:是否在方格中写入相关性数值 -
cmap
:热力图颜色 -
fmt
:决定annot数据格式
-
本文由 mdnice 多平台发布