ML:KNN

一种基本分类和回归模型
测量不用特征值之间距离来进行分类


关键点: K值选择、距离度量、分类决策规则


优点:精度高,对异常值不敏感,无数据输入假定。
缺点:计算复杂度高、空间复杂度高。
适用数据范围:数值型和标称型


1,计算已知类别数据集中对点于当前点之间点距离。
2,按照距离递增次序排序。
3,选择与当前点距离最小点k个点。
4,确定前k个点所在类别点出现概率。
5,返回前k个点出现频率最高点类别最为当前点的预测分类。


k值小容易过拟合,模型复杂;k值大简单预测训练集最多的类,模型简单,缺失信息;k值通常采用交叉验证来确定。


k近邻通常采用多数表决。


采用kd树优化训练过程。
相当于不断地用垂直于一个坐标轴的超平面将空间划分,kd树每一个节点对应一个划分区域,最终kd树叶节点对应所有实例。

通常采用中位数来作为切分点。使kd树尽可能平衡。

对于深度为j的节点,选择x(l)作为切分的坐标轴,l = j (mod k) + 1;
其实就是循环采用每个坐标轴。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值