非参数估计指不知道分布类型,对样本进行模型估计。一般只用在一维和二维。
直方图估计
具体概念详见课件:
直方图与初高中所理解的直方图没什么不同,直方图估计就是采用直方图的方式来对数据进行拟合。显然地,"箱子"的宽度1/M能够更准确更细致地展示数据的分布;但如果1/M过小,导致有些箱子里没有数据,这个时候p(x)将会出现较大波动。所以,如何选择M十分关键,通常采用交叉验证的方法确定M。
核密度估计
核密度估计针对直方图的缺点进行了改动。在直方图中,由于在同一个箱子里出现的样本点,它们都是对于以中心点B(xi)形成的宽度为h的区域有相同的贡献。核密度估计是希望对这些点做距离的权重,从而使得分布更加平滑。
其中核函数的参数(x-xi)/h即是距离的权重。
常见的核函数
在核密度估计中,带宽h比较重要,核函数影响较小。