pandas中的绘图函数（什么是kde）

最新推荐文章于 2024-04-28 22:04:49 发布

冽夫

最新推荐文章于 2024-04-28 22:04:49 发布

阅读量1.5w

点赞数 7

分类专栏： python

原文链接：https://www.cnblogs.com/calvin-zhang/articles/10402307.html

版权

python 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

不难看出，matplotlib实际上是一种比较低级的工具。要组装一张图表，我们得用它的各种基础组件才行：数据展示（即图表类型：线型图、柱状图、盒形图、散布图、等值线图等）、图例、标题、刻度标签以及其他注解型信息。这是因为要根据数据制作一张完整图表通常都需要用到多个对象。在pandas中，我们有行标签、列标签以及分组信息（可能有）。这也就是说，要制作一张完整的图表，原本需要一大堆的matplotlib代码，现在只需一两条简洁的语句就可以了。pandas有许多能够利用DataFrame对象数据组织特点来创建标准图表的高级绘图方法（这些函数的数量还在不断增加）。

线型图

Series和DataFrame都有一个用于生成各类图表的plot方法。默认情况下，它们所生成的是线型图（如下图所示）：

通过ipython --pylab进入ipython，便于后面使用matplotlib的plot绘图

C:\Users\Administrator>ipython --pylab

In [1]: from pandas import Series,DataFrame

In [2]: import numpy as np

In [3]: s=Series(np.random.randn(10).cumsum(),index=np.arange(0,100,10))

In [4]: s.plot()
Out[4]: <matplotlib.axes._subplots.AxesSubplot at 0x100e6ac8>

该Series对象的索引会被传给matplotlib，并用以绘制X轴。可以通过use_index=False禁用该功能。X轴的刻度和界限可以通过xticks和xlim选项进行调节，Y轴就用yticks和ylim。plot参数的完整列表请参见表一。这里只学习其中几个。

pandas的大部分绘图方法都有一个可选的ax参数，它可以是一个matplotlib的subplot对象。这使我们能够在网格布局中更为灵活地处理subplot的位置。

DataFrame的plot方法会在一个subplot中为各列绘制一条线，并自动创建图例，如下图所示：

In [21]: from pandas import Series,DataFrame

In [22]: df=DataFrame(np.random.randn(10,4).cumsum(0),columns=['A','B','C','D']
...: ,index=np.arange(0,100,10))

In [23]: df.plot()
Out[23]: <matplotlib.axes._subplots.AxesSubplot at 0xef017b8>

表一：Series.plot方法的参数

参数说明

label 用于图例的标签

ax 要在其上进行绘制的matplotlib subplot对象。如果没有设置，则使用当前matplotlib subplot

sytle 将要传给matplotlib的风格字符串（如‘ko--’）

alpha 图表的填充不透明度（0到1之间）

kind 可以是'line'、'bar'、'barh'、'kde'

logy 在Y轴上使用对数标尺

use_index 将对象的索引用作刻度标签

rot 旋转刻度标签（0到360）

xticks 用作X轴刻度的值

yticks 用作Y轴刻度的值

xlim X轴的界限（例如[0,10]）

ylim Y轴的界限

grid 显示轴网格线（默认打开）

DataFrame还有一些用于列进行灵活处理的选项，例如，是要将所有列都绘制到一个subplot中还是创建各自的subplot。详细信息参见表二

表二：专用于DataFrame的plot的参数

参数说明

subplot 将各个DataFrame列绘制到单独的subplot中

sharex 如果subplots=True，则共用同一个X轴，包括刻度和界限

sharey 如果subplots=True,则共用同一个Y轴

figsize 表示图像大小的元组

title 表示图像标题的字符串

legend 添加一个subplot图例（默认为True）

sort_columns 以字母表顺序绘制各列，默认使用当前列顺序

柱状图

在生成线形图的代码中加上kind='bar'（垂直柱状图）或kind='barh'（水平柱状图）即可生成柱状图。这时，Series和DataFrame的索引将会被用作X（bar）或Y（barh）刻度（如下图所示）：

In [19]: fig,axes=plt.subplots(2,1)

In [20]: data.plot(kind='bar',ax=axes[0],color='k',alpha=0.7)
Out[20]: <matplotlib.axes._subplots.AxesSubplot at 0x10fe6ba8>

In [21]: data.plot(kind='barh',ax=axes[1],color='k',alpha=0.7)
Out[21]: <matplotlib.axes._subplots.AxesSubplot at 0x110109e8>

对于DataFrame，柱状图会将每一行的值分为一组，如下图所示：

注意，DataFrame各列的名称"Grid"被用作了图例的标题。设置stacked=True即可为DataFrame生成堆积柱状图，这样每行的值就会被堆积在一起（如下图所示）：

直方图和密度图

直方图（histogram）是一种可以对值频率进行离散化显示的柱状图。数据点被拆分到离散的、间隔均匀的面元中，绘制的是各面元中数据点的数量。与此相关的一种图表类型是密度图，它是通过计算“可能会产生观测数据的连续概率分布的估计”而产生的。一般的过程是将该分布近似为一组核（即诸如正态（高斯）分布之类的较为简单的分布）。因此，密度图也被称作KDE（Kernel Density Estimate,核密度估计）图。调用plot时加上kind='kde'即可生成一张密度图（标准混合正态分布KDE）

这两种图表常常会被画在一起。直方图以规格化形式给出（以便给出面元化密度），然后再在其上绘制核密度估计。接下来来看一个由两个不同的标准正态分布组成的双峰分布：

In [1]: from pandas import Series,DataFrame

In [2]: import pandas as pd

In [3]: import matplotlib.pyplot as plt

In [4]: import numpy as np

In [5]: import scipy

In [6]: comp1=np.random.normal(0,1,size=200) #生成一个高斯分布的概率密度函数

In [7]: comp2=np.random.normal(10,2,size=200) #生成一个高斯分布的概率密度函数

In [8]: values=Series(np.concatenate([comp1,comp2])) #将两个图拼接

In [9]: values.hist(bins=100,alpha=0.3,color='k',density=True) #生成直方图
Out[9]: <matplotlib.axes._subplots.AxesSubplot at 0x106362e8>

In [10]: values.plot(kind='kde',style='k--') #这一步需要用到第三方库scipy，所以要提前安装scipy，生成密度图
Out[10]: <matplotlib.axes._subplots.AxesSubplot at 0xff21ef0>

注:numpy中

numpy.random.normal(loc=0.0, scale=1.0, size=None)

参数的意义为：

　　loc:float

　　概率分布的均值，对应着整个分布的中心center

　　scale:float

　　概率分布的标准差，对应于分布的宽度，scale越大越矮胖，scale越小，越瘦高

　　size:int or tuple of ints

　　输出的shape，默认为None，只输出一个值

　　我们更经常会用到np.random.randn(size)所谓标准正态分布（μ=0, σ=1），对应于np.random.normal(loc=0, scale=1, size)

散布图

散布图（scatter plot）是观察两个一维数据序列之间的关系的有效手段。matplotlib的scatter方法是绘制散布图的主要方法。

下面看一个例子：

还是通过C:\Users\Administrator>ipython --pylab进入ipython

In [1]: import numpy as np

In [2]: import matplotlib.pyplot as plt

In [3]: N=50

In [5]: x=np.random.rand(N)

In [6]: y=np.random.rand(N)

In [7]: colors=np.random.rand(N)

In [8]: area=(30*np.random.rand(N))**2

In [9]: plt.scatter(x,y,s=area,c=colors,alpha=0.5)
Out[9]: <matplotlib.collections.PathCollection at 0xd7b1f98>

冽夫

关注

7
点赞
踩
60

收藏

觉得还不错? 一键收藏
0
评论
pandas中的绘图函数（什么是kde）

不难看出，matplotlib实际上是一种比较低级的工具。要组装一张图表，我们得用它的各种基础组件才行：数据展示（即图表类型：线型图、柱状图、盒形图、散布图、等值线图等）、图例、标题、刻度标签以及其他注解型信息。这是因为要根据数据制作一张完整图表通常都需要用到多个对象。在pandas中，我们有行标签、列标签以及分组信息（可能有）。这也就是说，要制作一张完整的图表，原本需要一大堆的matplotli...
复制链接

扫一扫