KNN算法

上次说道分类和预测的过程:
1、将“训练算法”应用在“训练集”上,得到“模型”。
2、用测试集测试“模型”,甄别出误差小于预期的最优模型。
3、把模型应用到目标数据上,得到结果。

其中“训练算法”可以有很多种,KNN就是其中最简单的一种。

适用场景
已经有一个数据集合了,包含了分类属性。
根据未知元组的属性判断属于哪个分类。
用人话举个例子:已经记录了大量的动物信息,而且知道每个动物属于门类。

算法原理
根据属性计算欧氏空间的距离,根据距离最近的实例属于的分类,确定未知元组的分类。
用人话举个例子:如果发现了一个未知物种,它外观像鸭,食物像鸭,行为像鸭,...,那它就是鸭。

如果现有数据集合:
a(a1,a2,a3,a4,ClassA)
b(b1,b2,b3,b4,ClassA)
c(c1,c2,c3,c4,ClassB)

每个元组都可以看成欧氏空间中的一个4维向量,向量间计算距离的公式很容易知道:... 
将分类未知的元祖和已知数据集中的元组算距离。
算出距离后,找出最近的K个,这K个元组属于什么分类,或者大部分属于什么分类,那么这个待定分类的,也就可以确定分类了。

基本用法
1、特性选择和数据规范化
基本尝试,你懂的。
2、计算距离(可能不是简单的计算欧氏距离,可能涉及距离加权)
3、根据距离找出最近的K个元组组成 决策集(Decision Set)
4、根据某种算法(少数服从多数,加权后比较等)确定分类。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值