密度估计问题
由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法有参数估计和非参数估计。非参数估计包含核密度估计。
离散型随机变量
概率函数:就是用函数的形式来表达概率;
概率分布:
概率分布函数(简称分布函数):就是概率函数取值的累加结果,所以它又叫累积概率函数、累积概率分布、累积分布函数。
连续型随机变量
概率函数又称为概率密度函数,某点的概率密度即为概率在该点的变化率;
概率密度函数是分布函数的导函数。
Sklearn实现核密度估计
Sklearn中实现核密度估计的方法:均匀核函数、三角核函数、伽马核函数、高斯核函数等。
以高斯核密度估计为例画出概率密度函数曲线(连续变量):
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors.kde import KernelDensity # 导入核密度估计
X = X.reshape(-1, 1) # 转换成2D array
X_plot = np.linspace(0, 0.1, 1000)[:, np.newaxis] # [:,np.newaxis] # 也能转换成2D array
kde = KernelDensity(kernel='gaussian', bandwidth=0.75).fit(X)