一、实验目的
本实验旨在让同学理解近邻法的原理,通过软件编程,理解 k-近邻法和剪辑近邻的设计过程,掌握影响 k-近邻法错误率的估算因素等。
二、实验原理
k-近邻法
最近邻法可以扩展成找测试样本的k个最近样本做决策依据的方法,其基本规则是在所有N个样本中找到与测试样本的k个最近邻者,其中各类别所占个数表示成则决策规则是:如果
则决策
k近邻一般采用k为奇数,跟投票表决一样,避免因两种票数相等而难以决策。
剪辑近邻法
剪辑近邻法的基本思想,是从一个现象出发的,即当不同类别的样本在分布上有交迭部分时,分类的错误率主要来自处于交迭区中的样本。为了减小错误率可以利用现有的样本及对其自身进行剪辑,以两类别问题为例说明这种方法的原理。
假设有一个样本集,样本数量为N,我们将此样本集分为两个互相独立的样本子集。一个被当作考试集,另一个当作参考集
,数量分别为
与
,
。将
中的样本表示成
,而在
中的样本表示为
。
剪辑的过程是首先对中每一个
在
中找到其最近邻的样本
,用
表示
是
的最近邻参考样本。如果不属于同一类别,则将
从
中删除,最后从
中得到一个经过剪辑的样本集
,
称为剪辑样本集。可以用来取代原样本集
,作为参考样本集对待识别样本进行分类。
实际上,剪辑样本的过程也可以用k-近邻法进行,即对中的每个样本
,找到在
中的k个近邻,用k-近邻法判断
是否被分错类。从而决定其取舍,其他过程与k-近邻法完全一样。
三、实验原始记录
模式识别实验:近邻法分类器设计-深度学习文档类资源-CSDN文库https://download.csdn.net/download/qq_56870342/87251270四、实验结果及分析
表 1 当k=5时k-近邻法离测试点最近5个样本点的标签
测试样本点 | 1 | 2 | 3 | 4 | 5 |
第1近 | 2 | 2 | 2 | 1 | 1 |
第2近 | 1 | 1 | 2 | 1 | 1 |
第3近 | 1 | 1 | 1 | 1 | 1 |
第4近 | 1 | 1 | 2 | 2 | 1 |
第5近 | 2 | 1 | 1 | 2 | 1 |
表 1 当k=5时剪辑近邻法离测试点最近5个样本点的标签
测试样本点 | 1 | 2 | 3 | 4 | 5 |
第1近 | 1 | 1 | 1 | 1 | 1 |
第2近 | 1 | 1 | 2 | 1 | 1 |
第3近 | 1 | 1 | 2 | 1 | 1 |
第4近 | 1 | 1 | 1 | 1 | 1 |
第5近 | 1 | 1 | 2 | 1 | 1 |