机器学习之k近邻法

最新推荐文章于 2024-07-25 15:16:40 发布

飞虹舞毓

最新推荐文章于 2024-07-25 15:16:40 发布

阅读量726

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/supinyu/article/details/51992415

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

声明：
1、本文仅为学习笔记，不得商用
2、文中所引文献，已在参考资料中说明，但部分来源于网络，出处无可考究，如果文中引用了您的原创，请您私信我
3、如果内容有错误或者不准确的地方请大家指正

k 近邻算法简述
k近邻模型
kd tree
- 构建kd tree

k 近邻算法简述

k近邻算法是一种基本的分类与回归的方法，k近邻法假设给定一个训练集，其中的实例类别已定，分类时，对新的实例，根据其k个最近的训练实例的类别，通过多数表决等方式进行预测。核心思想就是：如果一个样本在特征空间中，其中k个最相邻的样本中的大多数属于某一类，则该样本也属于这一类。通俗的将就是，近朱者赤近墨者黑。
注意：k近邻与k-means的区别？k近邻是分类算法，k-means是聚类算法，一个是有监督的学习，一个是无监督的学习

k近邻模型

k近邻使用的模型实际上对应于对特征空间的划分。主要由三个要素决定：距离度量、k值的选择和分类器规则决定。
算法的主要步骤：
1、选择一种合适的距离度量，计算样本到每个测试集的距离
2、对距离进行排序，按照距离的递增进行排序，选择距离最近的k个
3、找到这k个点中，每种label出现的次数，出现次数最多的就是我们要求的

模型

k近邻模型主要是根据训练集、距离度量、k值以及分类决策规则等，将特征空间进行相应的划分。确定每个子空间里每个点的所属类。特征空间的划分如下图所示：
这里写图片描述

将一个特征空间划分为若干的子空间。

距离度量

两个点的距离可以看成两个点相似度的放映，k近邻模型的特征空间一般是 $n$ 维实向量空间 $R^n$ 。一般选用的都是欧式距离，也可以使用别的距离。

L p (x i, x j) = (\sum l = 1 n | x (l) i - x (l) j | p) 1 p

$L_p(x_i,x_j)=(\sum_{l=1}^{n}|x_i^{(l)}-x_j^{(l)}|^p)^\frac{1}{p}$
这里

p≥1 $p\geq1$ ，当

p=2 $p=2$ ，称为欧式距离

L 2 (x i, x j) = (\sum l = 1 n | x (l) i - x (l) j | 2) 1 2

$L_2(x_i,x_j)=(\sum_{l=1}^{n}|x_i^{(l)}-x_j^{(l)}|^2)^\frac{1}{2}$
当

p=1 $p=1$ ，称为曼哈顿距离

L 1 (x i, x j) = \sum l = 1 n | x (l) i - x (l) j |

$L_1(x_i,x_j)=\sum_{l=1}^{n}|x_i^{(l)}-x_j^{(l)}|$
不同的度量距离，所确定的最近邻的点是不同的

k值的选择

k值的选择会对k近邻算法的结果产生重大的影响。最著名的应该就是下面的这个图了：
这里写图片描述
当 $k=3$ 时，绿色样本点取红色，当 $k=5$ 时，绿色样本点取蓝色，在实际应用中，k值一般取一个较小的值，通常采用交叉验证来选取最优的k值

分类决策规则

k近邻中的分类决策规则往往是多数表决

kd tree

为了实现快速的k近邻搜索，我们介绍kd树方法：

构建kd tree

方法如下：
构建根节点

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之k近邻法

声明： 1、本文仅为学习笔记，不得商用 2、文中所引文献，已在参考资料中说明，但部分来源于网络，出处无可考究，如果文中引用了您的原创，请您私信我 3、如果内容有错误或者不准确的地方请大家指正k 近邻算法简述k近邻模型模型距离度量k值的选择分类决策规则kd tree构建kd treek 近邻算法简述k近邻算法是一种基本的分类与回归的方法，k近邻法假设给定一个训练集，其中的实例
复制链接

扫一扫

专栏目录

飞虹舞毓 CSDN认证博客专家 CSDN认证企业博客

码龄14年

48: 原创

14万+: 周排名

145万+: 总排名

9万+: 访问

: 等级

1429: 积分

17: 粉丝

18: 获赞

17: 评论

73: 收藏

私信

关注

热门文章

分类专栏

机器学习 5篇
刷题 1篇
LeetCode 5篇
概率统计 4篇
Python 6篇
项目 3篇
数据结构 5篇
PAT(basic level)
Hadoop 1篇
Spark 1篇
面试 2篇
软件安装 5篇
Linux 5篇
Tensorflow 2篇
论文 3篇
自然语言处理 1篇
Pytorch 1篇

最新评论

FastText文本分类以及生成词向量
长安山南君: 你好，在【3、生成词向量】中使用FastText在以独字+空格分割的句子训练词向量。问题： 1、你这训练的词向量应该是“字”的词向量吧？ 2、neighborsWords = model.get_nearest_neighbors('篮球') 的结果应该是“字”而不是“词语”吧？
非root用户安装CMake
weixin_45622046: 请问博主，./bootstrap这一步报错是为什么呀
使用python提取中文数字和英文
沙志远: 真赞，学到了。
非root用户安装CUDA和CuDNN
飞虹舞毓回复 qq1321985517: 这个应该是，你在执行程序的时候，设置一下环境变量，把你自己安装的路径，放到启动脚本的环境变量里面
非root用户安装CUDA和CuDNN
qq1321985517: 我的情况是：服务器预装了一个版本的cuda和cudnn，我在自己的路径下安装了另一个版本的；最终运行代码似乎还是寻找的服务器预装的版本，不知道该怎么修改，才能找到我自己装的版本...

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。