k最近邻分类;matlab_非参数估计法之Parzen窗估计和k最近邻估计

最新推荐文章于 2023-06-23 21:31:16 发布

weixin_39864387

最新推荐文章于 2023-06-23 21:31:16 发布

阅读量657

点赞数

文章标签： k最近邻分类;matlab

本文链接：https://blog.csdn.net/weixin_39864387/article/details/111709729

版权

本文介绍了非参数化概率密度估计，特别是Parzen窗估计法和k最近邻（k-NN）估计。通过Matlab实现这两种方法，对3类正态分布的样本数据进行分类。实验调整窗口大小h和样本数量，展示了两种方法的分类效果。

摘要由CSDN通过智能技术生成

进入正题之前先给大家推荐一本书--《Python机器学习及实践－从零开始通往KAGGLE竞赛之路》，对于想系统学习机器学习的同学，推荐去看一下，电子版下载链接如下：

链接：https://pan.baidu.com/s/1rzaFErwbtQ6CQdTSRnaURg

提取码：5gou

其中，P是概率密度函数p(x)的平滑版本，因此可以通过计算P来估计概率密度函数p(x)，假设n个样本x1,x2,…,xn，是根据概率密度函数p(x)独立同分布的抽取得到，这样，有k个样本落在区域R中的概率服从以下分布：

如下图所示，以上公式产生一个特定值的相对概率，当n趋近于无穷大时，曲线的形状逼近一个δ函数，该函数即是真实的概率。公式中的V是区域R所包含的体积。综上所述，可以得到关于概率密度函数p(x)的估计为：

在实际中，为了估计x处的概率密度函数，需要构造包含点x的区域R1,R2,…,Rn。第一个区域使用1个样本，第二个区域使用2个样本，以此类推。记Vn为Rn的体积。kn为落在区间Rn中的样本个数，而pn (x)表示为对p(x)的第n次估计：

有两种经常采用的获得这种区域序列的途径，如下图所示。其中“Parzen窗方法”就是根据某一个确定的体积函数，比如Vn=1/√n来逐渐收缩一个给定的初始区间。这就要求随机变量kn和kn/n能够保证pn (x)能收敛到p(x)。第二种“k-近邻法”则是先确定kn为n的某个函数，如kn=√n。这样，体积需要逐渐生长ÿ

关注