《统计学习方法》笔记（3）：k近邻

最新推荐文章于 2024-02-13 21:50:33 发布

峰峰jack

最新推荐文章于 2024-02-13 21:50:33 发布

阅读量746

点赞数

分类专栏：数据挖掘数据结构文章标签：统计学习 k近邻算法三要素 kd树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/elecjack/article/details/51025452

版权

数据挖掘同时被 2 个专栏收录

11 篇文章 1 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

k近邻（KNN）是相对基本的机器学习方法，特点是不需要建立模型，而是直接根据训练样本的数据对测试样本进行分类。

1、k近邻的算法？

算法对测试样本进行分类的一般过程如下：

1）根据给定的k值，搜索与测试样本距离最近的k个训练样本；

2）统计k个样本对应的每种分类数量；

3）根据每种分类的数量投票决定样本点所属分类，票数多者得。

例如：对于二分类，采用k=5的k近邻算法进行分类：距离样本点最近的5个点中，属于类0的样本数量为2，属于类1的样本数量为3，最终判定样本点属于类1。

2、k近邻的三要素？

k值、距离计算方法和投票规则是共同决定k近邻算法的三要素。

1）k值前面算法中已经介绍过了，是人为设定的值；根据这个设定的k值，选定距离样本点最近的训练样本。

2）距离计算方法一般采用欧氏距离，也可采用更加一般的Lp距离。举例来说：向量x1=(1,2)和x2=(3,4)均为2维特征向量，欧氏距离为 $\sqrt{((1-3)^2+(2-4)^2 )}$ ，Lp距离为 $\sqrt[p]{((1-3)^p+(2-4)^p )}$ ，欧氏距离是Lp距离中P=2的特例。

3）投票规则一般采用票数多者得的原则。

3、快速对样本进行分类的方法？

k近邻算法的核心是快速的搜索到距离最近的样本点。对于样本量N很大的数据集，如果采用线性搜索方法，因为需要遍历样本中的每一个点，速度会非常慢。

为此常采用kd树结构来存储原始数据，kd树其实是二叉搜索树，对于树中的每一个节点，其左子节点（left节点）都小于自身，右子节点（right节点）都大于自身。采用该数据结构进行样本搜索时，每次可以排除掉剩余节点中半数（并非严格的半数）的节点，速度会快得多，时间复杂度是O(logN)。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》笔记（3）：k近邻

k近邻算法对测试样本进行分类的一般过程如下：1）根据给定的k值，搜索与测试样本距离最近的k个训练样本；2）统计k个样本对应的每种分类数量；3）根据每种分类的数量投票决定样本点所属分类，票数多者得。例如：对于二分类，采用k=5的k近邻算法进行分类：距离样本点最近的5个点中，属于类0的样本数量为2，属于类1的样本数量为3，最终判定样本点属于类1。
复制链接

扫一扫

专栏目录

峰峰jack CSDN认证博客专家 CSDN认证企业博客

码龄17年

98: 原创

7万+: 周排名

2万+: 总排名

55万+: 访问

: 等级

3154: 积分

108: 粉丝

137: 获赞

36: 评论

450: 收藏

私信

关注

热门文章

分类专栏

AIGC 1篇
Metagpt 1篇
动态规划
回溯 1篇
Java 6篇
Git 2篇
R语言 1篇
Python 29篇
数据挖掘 11篇
推荐系统 3篇
Kaggle 2篇
数据库 4篇
数据结构 5篇
Shell 5篇
HIVE 3篇
机器学习 6篇
Spark 1篇
算法及编程 6篇

最新评论

爬虫系列4：scrapy技术进阶之多页面爬取
Reoyy: 如何爬取多页数据相同url
HIVE点滴：group by和distinct语句的执行顺序
go ahead！@: 错了，兄弟
吴恩达机器学习笔记1：手写linear regression
峰峰jack: 可以少写一层循环
吴恩达机器学习笔记1：手写linear regression
峰峰jack: 也可以直接用矩阵运算来替代循环，简化运算过程： [code=python] def model_fit(Theta,X,y,alpha,iterations): # 代价函数的迭代过程记录 cost=np.zeros(iterations) # 样本数量 m=X.shape[0] # 迭代次数 for i in range(iterations): # 必须要先计算error：对所有参数进行更新时，使用相同的error值 error=np.dot(X,Theta.T)-y # batch gradient descent：对参数进行更新 # 批量更新 Theta=Theta-1.0/m*alpha*np.dot(error,X) cost[i]=J(Theta,X,y) return Theta,cost [/code]
dp（动态规划）思考
Deep Learning小舟: 哇塞，学习到了！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。