k最近邻分类;matlab_非参数估计法之Parzen窗估计和k最近邻估计

本文介绍了非参数化概率密度估计,特别是Parzen窗估计法和k最近邻(k-NN)估计。通过Matlab实现这两种方法,对3类正态分布的样本数据进行分类。实验调整窗口大小h和样本数量,展示了两种方法的分类效果。
摘要由CSDN通过智能技术生成

30b08a1c57047af1aaf5c70abdb0cb7e.png

进入正题之前先给大家推荐一本书--《Python机器学习及实践-从零开始通往KAGGLE竞赛之路》,对于想系统学习机器学习的同学,推荐去看一下,电子版下载链接如下:

链接:https://pan.baidu.com/s/1rzaFErwbtQ6CQdTSRnaURg

提取码:5gou

1.非参数化概率密度的估计

  • 对于未知概率密度函数的估计方法,其核心思想是:一个向量x落在区域R中的概率可表示为:

74f23d5fa4f863ad09da5a1d9cc75b9e.png
  • 其中,P是概率密度函数p(x)的平滑版本,因此可以通过计算P来估计概率密度函数p(x),假设n个样本x1,x2,…,xn,是根据概率密度函数p(x)独立同分布的抽取得到,这样,有k个样本落在区域R中的概率服从以下分布:

674c64a92ef0e0f026b80761f8a259fa.png
  • 其中k的期望值为:

dbf3ee3a6a530da28edd2a457d0df94d.png
  • k的分布在均值附近有着非常显著的波峰,因此若样本个数n足够大时,使用k/n作为概率P的一个估计将非常准确。假设p(x)是连续的,且区域R足够小,则有:

d47f15325c58e7317907d85696fb0ce1.png
  • 如下图所示,以上公式产生一个特定值的相对概率,当n趋近于无穷大时,曲线的形状逼近一个δ函数,该函数即是真实的概率。公式中的V是区域R所包含的体积。综上所述,可以得到关于概率密度函数p(x)的估计为:

3d347b8c9d7fb4c55ea036f8daa1fade.png

eb07af34e91414dd16f76b8d263431d6.png
  • 在实际中,为了估计x处的概率密度函数,需要构造包含点x的区域R1,R2,…,Rn。第一个区域使用1个样本,第二个区域使用2个样本,以此类推。记Vn为Rn的体积。kn为落在区间Rn中的样本个数,而pn (x)表示为对p(x)的第n次估计:

c717e23c0faad20e424978a48f1acb49.png
  • 欲满足pn(x)收敛:pn(x)→p(x),需要满足以下三个条件:

7350438b23a45691cab986850bbefa09.png
  • 有两种经常采用的获得这种区域序列的途径,如下图所示。其中“Parzen窗方法”就是根据某一个确定的体积函数,比如Vn=1/√n来逐渐收缩一个给定的初始区间。这就要求随机变量kn和kn/n能够保证pn (x)能收敛到p(x)。第二种“k-近邻法”则是先确定kn为n的某个函数,如kn=√n。这样,体积需要逐渐生长ÿ
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值