K近邻算法基础知识

最新推荐文章于 2023-10-27 22:13:26 发布

兢飞

最新推荐文章于 2023-10-27 22:13:26 发布

阅读量501

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_40884357/article/details/95444057

版权

16 篇文章 1 订阅

订阅专栏

$\boldsymbol{k}$ -近邻算法

$\boldsymbol{k}$ -近邻算法采用测量不同特征之间的距离方法进行分类。没有显式的训练过程，在训练阶段仅仅是把样本保存起来，在收到测试样本以后再进行处理。
$\boldsymbol{k}$ -近邻算法的特殊情况是 $\boldsymbol{k}$ =1，称为最近邻算法

优点：
精度高、对异常值不敏感、无数据输入假定。
缺点：
1. 计算复杂度高、空间复杂度高。 $\boldsymbol{k}$ -近邻算法必须保存全部数据集，如果训练数据集很大，必须使用大量的存储空间。必须对数据集中的每个数据计算距离值，非常耗时。
2. 无法给出任何数据的基础结构信息，因此无法知道平均实例样本和典型实例具有什么特征。
适用数据范围：
数值型(需要进行计算距离)和标称型。
数值型：数值型目标变量则可以从无限的数值集合中取值，如1，2等 (数值型目标变量主要用于回归分析)
标称型：标称型目标变量的结果只在有限目标集中取值，如真与假(标称型目标变量主要用于分类)

距离公式:
$L_{p}(x_{i},x_{j})=(\sum_{i=l}^{n}|x_{i}^{l}-x_{j}^{l}|^{p})^{1/p}$

KNN采用投票的方法(即少数服从多数)，在选取k的时候太大(一般不会大于20的整数加粗样式)，选取奇数。

关注