数据挖掘:模型选择——KNN

KNN是一种监督学习算法,基于近邻原则进行分类。本文介绍了KNN的工作原理,强调了k值选择、距离度量和分类决策规则的重要性,并探讨了KNN的优缺点,如精度高但计算复杂度高。
摘要由CSDN通过智能技术生成

KNN简介

KNN是监督学习算法,其主要思想就是近朱者赤,近墨者黑。找出新样本与训练数据的最近的K个实例,哪个类别的个数多,就把该样本判定为哪一类。
下面用这个图进行下说明。如果选择离新样本最近的3个实例,那么圆被判定为三角,如果选择5个实例,那么则被判定为方块。
在这里插入图片描述

KNN工作原理

工作原理如下:

假设有一个带有标签的样本数据集(训练样本集),其中包含每条数据与所属分类的对应关系。
输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较。

  1. 计算新数据与样本数据集中每条数据的距离
  2. 对求得的所有距离进行排序(从小到大,越小表示越相似)。
  3. 取前 k (k 一般小于等于 20 )个样本数据对应的分类标签。

求 k 个数据中出现次数最多的分类标签作为新数据的分类。

KNN基本要素

通过上述原理的说明,可将主要参数归总为k值的选择距离度量以及分类决策规则是k近邻算法的三个基本要素。

k值的选择

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值