二维变量数量分布图：高斯核函数计算核密度估计Gaussian Kernel Density Estimation(KDE) & 六边形分箱图

陌云漫步

已于 2022-05-13 09:37:30 修改

阅读量1.9w

点赞数 14

分类专栏： Python 文章标签： python 数据可视化

于 2020-08-04 21:36:55 首次发布

本文链接：https://blog.csdn.net/qq_39085138/article/details/107792246

版权

Python 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

最近需要可视化统计一个二维变量的数量分布图，网上搜了一下大概有一下两种方法：

1. 核密度估计图，通过核函数来进行密度估计

2. 六边形分箱图（Hexagonal Binning），直接计算不同bin中的点的数量

首先来说一下核密度估计图

具体什么是核密度估计建议大家去B站搜索一下，讲的很清楚，大概就是需要一个核函数，对每一个样本点进行叠加，最后再归一化的一个过程，这个过程和带宽有很大的关系。

我主要用Python的scipy.stats.gaussian_kde函数和matplotlib进行了可视化

具体代码网上很多，这里我又加了一些注释，算是给入门的看的吧：

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import gaussian_kde

x=data1#第一维数据
y=data2#第二维数据
xy = np.vstack([x,y])#将两个维度的数据进行叠加
kenal = gaussian_kde(xy)#这一步根据xy这个样本数据，在全定义域上建立了概率密度分布，所以kenal其实就是一个概率密度函数，输入对应的(x,y)坐标，就给出相应的概率密度
#kenal.set_bandwidth(bw_method=kenal1.factor)#这一步可以直接设置bandwith，通常情况下默认即可
z = kenal.evaluate(xy)#得到我们每个样本点的概率密度
z = gaussian_kde(xy)(xy)#这行代码和上面两行是相同的意思，这行是一行的写法
idx = z.argsort() #对z值进行从小到大排序并返回索引
x, y, z = x[idx], y[idx], z[idx]#对x,y按照z的升序进行排列
#上面两行代码是为了使得z值越高的点，画在上面，不被那些z值低的点挡住，从美观的角度来说还是十分必要的
fig, ax = plt.subplots(figsize=(7,5),dpi=100)
scatter = ax.scatter(x,y,marker='o',c=z,edgecolors='none',s=25,label='label'
                     ,cmap='Spectral_r')
cbar_ax = plt.gcf().add_axes([0.93, 0.15, 0.02, 0.7])#[left,bottom,width,height] position
cbar = fig.colorbar(scatter, cax=cbar_ax, label='Probability density')
ax.set_xlabel('xlabel')
ax.set_ylabel('ylabel')
ax.set_title('title')

下面还有两点需要注意的地方：

1. 关于带宽，函数默认采用Scott's Rule：n**(-1./(d+4))，其中n是样本量，d是纬度，也就是样本量越大，维度越低，带宽越小，毕竟样本量多了，对应的高斯函数的方差应该是需要减小的，否则就会变得非常平滑，反之，如果样本量很小，再不用较大的方差，那么也就无法进行差值了。（感觉这里和地理统计中的差值非常像，样本量小，同时方差还很低，就会出现‘牛眼’现象）。

这里我其实并不明白带宽和高斯函数标准差之间的关系，所以我自己带入高斯函数公式推导了一下：

$f_h(x)=\frac{1}{n}\times \sum_{i=1}^{n}\phi _h(x-x_i)=\frac{1}{nh}\times\sum_{i=1}^{n}\phi (\frac{x-x_i}{h})=\frac{1}{n}\times \sum_{i=1}^{n}(\frac{1}{\sqrt{2\pi }\sigma h}e^\frac{-(x-x_i)^2}{2\sigma ^2h^2})$

可以看出来其实真实的高斯函数标准差是根据样本标准差（ $\sigma$ ）和带宽（h）相乘得到的，所以带宽越宽，得到的核密度分布越平滑。

2. 函数的返回值是概率密度，这个概率密度对定义域进行积分其实就是1，从上面的公式也可以看出来。

至于六边形分箱图我还没有发现有多好看，好处可能是对数据统计更加准确，毕竟是一个客观统计值，没有概率这一说了，但是还是觉得KDE比较好，大家想了解的就去matplotlib官网看看吧：

Hexbin演示 — Matplotlib 3.3.3 文档

https://matplotlib.org/api/_as_gen/matplotlib.pyplot.hexbin.html

#------------210531-------------------

在做一维核密度分布画图的时候，可能我们的样本权重并不是完全相同，如果想加入权重项并画图，就不能使用sns.kdeplot，虽然这个函数提供了一个选项weights，但是我把权重放进去就会告诉我：AttributeError: 'Line2D' object has no property 'weights'；我理解的是只有画二维核密度分布才可以使用，那么如果是一维核密度分布加权重该怎么办呢，想了一下还是得自己写函数来画了...下面是代码：

import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import gaussian_kde

#----画-1 to 1 之前标准正态分布的核密度图
xx = np.zeros(1000)
xx[500:] = np.random.uniform(low=0.0, high=1.0, size=500)
kenal1 = gaussian_kde(np.sort(x),weights=xx)#加权重
kenal2 = gaussian_kde(x)#不加权重
x0 = np.arange(-1,1,0.01)

#-------------加权重
fig = plt.figure(figsize=(15,6)) ##width, height default(8,6)
ax = fig.add_subplot(1,3,1)
z = kenal1.evaluate(x0)#
ax.plot(x0,z)
ax.set_ylim(0,0.5)
ax.set_xlim(-1,1)

ax = fig.add_subplot(1,3,2)
z = kenal2.evaluate(x0)#
ax.plot(x0,z)
ax.set_ylim(0,0.5)
ax.set_xlim(-1,1)

ax = fig.add_subplot(1,3,3)
sns.kdeplot(x)
ax.set_xlim(-1,1)
ax.set_ylim(0, 0.5)

可以看出来加了权重之后，核密度向右边移动了，主要是因为我们把前100个小值的权重设置为了0，而后两个则没有区别（有细微区别，可能是函数default的参数不一样，比如带宽啥的）

陌云漫步

关注

14
点赞
踩
75

收藏

觉得还不错? 一键收藏
1
评论
二维变量数量分布图：高斯核函数计算核密度估计Gaussian Kernel Density Estimation(KDE) & 六边形分箱图

最近需要可视化统计一个二维变量的数量分布图，网上搜了一下大概有一下两种方法：1. 核密度估计图，通过核函数来进行密度估计2. 六边形分箱图（Hexagonal Binning），直接计算不同bin中的点的数量首先来说一下核密度估计图具体什么是核密度估计建议大家去B站搜索一下，讲的很清楚，大概就是需要一个核函数，对每一个样本点进行叠加，最后再归一化的一个过程，这个过程和带宽有很大的关系（以高斯函数为例，带宽就是方差）。我主要用Python的scipy.stats.gaussian_kde函
复制链接

扫一扫

专栏目录