大数据机器学习(四)K-近邻算法

K-近邻算法(K-nearest neighbor,KNN)

实质:找k个最近的邻居,人多取胜(问题是k值该取多少怎么确定)
三个基本要素:

  • k值的选择
  • 距离度量
  • 分类决策准则

k值的选择

k小,模型复杂,容易过拟合,学习的估计误差大
k大,学习的近似误差会增大

距离度量

在这里插入图片描述
来个形象的图表示一下
在这里插入图片描述

算法特点

• 优点
①精度高 ②对异常值不敏感 ③无数据输入假定
• 缺点
① 计算复杂度高 ②空间复杂度高
•适用数据范围
数值型和标称型

在这里插入图片描述
实现k 近邻法时,主要考虑的问题是如何对训练数据进行快速k 近 邻搜索。这点在特征空间的维数大及训练数据容量大时尤其必要。

kd树是一种对K维空间中的实例点进行存储以便对其进行快速检 索的树形数据结构. Kd树是二叉树,表示对K维空间的一个划分(partition).构造Kd树 相 当于不断地用垂直于坐标轴的超平面将k维空间切分,构成一 系列的k维超矩形区域.Kd树的每个结点对应于一个k维超矩形区域

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值