机器学习之KNN

KNN模型引入

 
决策 功能 似,既可以 针对 离散因 量做分 ,又可以 对连续 量做 预测 ,其核心
思想就是比 已知 y 本与未知 y 值样 本的相似度,然后 找最相似的 k 本用作未知
本的 预测
 
K 最近 算法, 名思 就是搜 最近的 k 个已知 类别样 本用于未知 类别样 本的 预测
的度量就是 用点之 的距离或相似性。距离越小或相似度越高, 明它 越近,关
近度量在后面会 预测 于离散型的因 量来 ,从 k 个最近的已
类别样 本中挑 率最高的 类别 用于未知 本的判断; 连续 型的因 量来
k 个最近的已知 本均 用作未知 本的 预测
 

KNN模型步骤

  • 确定未知本近的个数k
  • 根据某种度量相似度的指(如欧氏距离)将每一个未知类别样本的最近k个已
  • 本搜出来,形成一个个簇。
  • 出来的已知行投票,将各簇下类别最多的分用作未知本点的预测

 

最佳k值选择

1、是 k 邻样 本的投票 重,假 设读
者在使用 KNN 算法 行分 预测时设 置的 k 大,担心模型 生欠 合的 象,一个
有效的 法就是 置近 邻样 本的投票 重,如果已知 本距离未知 本比 较远 则对
重就 置得低一些,否 则权 重就高一些,通常可以将 距离的倒数;
2、另一种是
采用多重交叉 验证 法, 方法是目前比 流行的方案,其核心就是将 k 取不同的 ,然后在每
m 重的交叉 验证 ,最后 出平均 差最小的 k 。当然, 可以将两种方法的 点相
合, 出理想的 k
 

 

相似度的度量方法

欧式距离
曼哈 距离
余弦相似度
杰卡德相似系数

 

近邻样本的搜寻方法

 
1,暴力搜寻法
针对某未知样本,计算它与所以已知样本之间的距离,然后从中挑选出最近的k个样本,再基于这k个样本进行投票,将票数最多的类别作为预测结果
2,k-d树搜寻法
3,球形搜寻法
 

参数

 
 
 

 

 

最重要的两个参数:n_neighbors 和 weights

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值