parzen窗方法和k近邻方法估计概率密度

最新推荐文章于 2024-08-11 22:50:26 发布

山高路远坑很深

最新推荐文章于 2024-08-11 22:50:26 发布

阅读量1.9w

点赞数 13

分类专栏：机器学习文章标签：机器学习 matlab parzen窗估计法算法 k近邻算法

本文链接：https://blog.csdn.net/qq_27914913/article/details/69487677

版权

本文介绍了Parzen窗和k-近邻两种非参数概率密度估计方法。在Parzen窗中，使用高斯核函数进行估计；而在k-近邻算法中，通过选取最近的k个样本点进行分类。实验涉及一维、二维和三维数据，展示了随着k值变化，概率密度曲线和曲面如何平滑。这两种方法在机器学习中均有广泛应用。

摘要由CSDN通过智能技术生成

机器学习实验四，详情请参考《模式分类》第二版第四章课后上机练习4.3、4.4节

实验环境：

Matlab2016a

Parzen窗估计方法：

已知测试样本数据x1,x2,…,xn，在不利用有关数据分布的先验知识，对数据分布不附加任何假定的前提下，假设R是以x为中心的超立方体，h为这个超立方体的边长，对于二维情况，方形中有面积V=h^2，在三维情况中立方体体积V=h^3。
根据以下公式，表示x是否落入超立方体区域中：

这里写图片描述

估计它的概率分布：

这里写图片描述

其中n为样本数量，h为选择的窗的长度，φ(.)为核函数，通常采用矩形窗和高斯窗。

k-近邻估计方法：

在Parzen算法中，窗函数的选择往往是个需要权衡的问题，k-最近邻算法提供了一种解决方法，是另一种非常经典的非参数估计法。基本思路是：已知训练样本数据x1,x2,…,xn而估计p(x)，以点x为中心，不断扩大体积Vn，直到区域内包含k个样本点为止，其中k是关于n的某一个特定函数，这些样本被称为点x的k个最近邻点。

当涉及到邻点时，通常需要计算观测点间的距离或其他的相似性度量，这些度量能够根据自变量得出。这里我们选用最常见的距离度量方法：欧几里德距离。

最简单的情况是当k=1的情况，这时我们发现观测点就是最近的（最近邻）。一个显著的事实是：这是简单的、直观的、有力的分类方法，尤其当我们的训练集中观测点的数目n很大的时候。可以证明，k最近邻估计的误分概率不高于当知道每个类的精确概率密度函数时误分概率的两倍。