parzen窗方法和k近邻方法估计概率密度

本文介绍了Parzen窗和k-近邻两种非参数概率密度估计方法。在Parzen窗中,使用高斯核函数进行估计;而在k-近邻算法中,通过选取最近的k个样本点进行分类。实验涉及一维、二维和三维数据,展示了随着k值变化,概率密度曲线和曲面如何平滑。这两种方法在机器学习中均有广泛应用。
摘要由CSDN通过智能技术生成

机器学习实验四,详情请参考《模式分类》第二版第四章课后上机练习4.3、4.4节

实验环境:

Matlab2016a

Parzen窗估计方法:

已知测试样本数据x1,x2,…,xn,在不利用有关数据分布的先验知识,对数据分布不附加任何假定的前提下,假设R是以x为中心的超立方体,h为这个超立方体的边长,对于二维情况,方形中有面积V=h^2,在三维情况中立方体体积V=h^3。
根据以下公式,表示x是否落入超立方体区域中:

这里写图片描述

估计它的概率分布:

这里写图片描述

其中n为样本数量,h为选择的窗的长度,φ(.)为核函数,通常采用矩形窗和高斯窗。

k-近邻估计方法:

在Parzen算法中,窗函数的选择往往是个需要权衡的问题,k-最近邻算法提供了一种解决方法,是另一种非常经典的非参数估计法。基本思路是:已知训练样本数据x1,x2,…,xn而估计p(x),以点x为中心,不断扩大体积Vn,直到区域内包含k个样本点为止,其中k是关于n的某一个特定函数,这些样本被称为点x的k个最近邻点。

当涉及到邻点时,通常需要计算观测点间的距离或其他的相似性度量,这些度量能够根据自变量得出。这里我们选用最常见的距离度量方法:欧几里德距离。

最简单的情况是当k=1的情况,这时我们发现观测点就是最近的(最近邻)。一个显著的事实是:这是简单的、直观的、有力的分类方法,尤其当我们的训练集中观测点的数目n很大的时候。可以证明,k最近邻估计的误分概率不高于当知道每个类的精确概率密度函数时误分概率的两倍。

实验内容:

给定以下三个类别的三维数据:

这里写图片描述

(1)使用parzen窗估计方法,窗函数为一个球形高斯函数:

这里写图片描述

(a)编写程序,使用parzen窗方法对一个任意的测试样本点进行分类,对分类器的训练使用表格中的三维数据。令h=1,对(0.5,0.1,0.0),(0.31,1.51,-0.50),(-0.3,0.44,-0.1)进行分类。
(b)令h=0.1,重复a。

实验步骤:

根据parzen窗的概率密度估计公式,编写parzen窗函数,输入三个参数,分别为三维数据w、参数h、测试点x,输出测试点在三个类别中估计的概率密度:

function r=parzen
  • 13
    点赞
  • 81
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值