第3章 k近邻法

本文详细介绍了k近邻(KNN)法的基本思想、算法流程、k值选择、分类决策规则,以及k近邻法在k维空间中的实现——kd树。k近邻法基于实例之间的距离进行分类,精度高但计算复杂度高,适用于多分类问题。kd树作为一种数据结构,能有效地帮助搜索最近邻,降低了KNN的计算复杂度。
摘要由CSDN通过智能技术生成

3.1 概述


k近邻法(k-nearest neighbor,KNN)是一种基本分类与回归方法。这里只讨论分类问题中的k近邻法。

该方法的思路:假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多方表决等方式进行预测。

k近邻法不具有显示的学习过程。

实质:k近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的模型。 

特点:

  • 基于实例之间距离和投票表决的分类;
  • 精度高、对异常值不太敏感;
  • 计算复杂度和空间复杂度高;
  • 特别适合多分类,简单易实现;
  • 大多数情况下比朴素贝叶斯和中心向量法好;
  • 给定训练集、距离度量、k值及分类决策函数时,其结果唯一确定。

 

3.2k近邻算法


算法3.1(k近邻算法)

输入:训练数据集T={ {(x_1,y_1),(x_2,y_2), \cdots ,(x_N,y_N)}}。其中,x_i\in X\subseteq R^n为实例的特征向量,y_i\in Y=\left \{ c_1,c_2,\cdot \cdot \cdot ,c_K \right \}为实例的类别,i=1,2,…,N;实例特征向量x;

输出:实例x的所属的分类y。

(1)根据给定的距离度量,在训练集T中找出与x最邻近的k个点,涵盖这k个点的x的邻域记作N_k(x);

(2)在N_k(x)中根据分类决策规则(如多数表决)决定x的类别y:y=arg \max_{c_j} \sum_{x_i\in N_k(x)}{I(y_i=c_j)},i=1,2,…N;j=1,2,…,K。其中I为指示函数,当y_i=c_jI为1,否则为0.

k=1时,称为最近邻算法

3.3k临近模型


k邻近方法 使用的模型实际上对应于特征空间的划分。模型由3个基本要素:距离度量、k值的选择和分类决策规则决定。

1.模型

  • 在K邻近算法当中,给定训练集、距离度量、k值及分类决策函数时,其结果唯一确定。
  • 特征空间中,对每个训练实例点x_i,距离该点比其他点更近的所有点组成一个区域ÿ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值