更多关于k近邻算法

最新推荐文章于 2023-10-09 21:11:23 发布

Bonjour_Yvonne

最新推荐文章于 2023-10-09 21:11:23 发布

阅读量126

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Bonjour_h/article/details/114968980

版权

机器学习专栏收录该内容

36 篇文章 1 订阅

订阅专栏

更多关于k近邻算法

最大缺点：效率低下
如果训练集有m个样本，n个特征，则预测每一个新的数据需要O(m*n)
优化方式：使用树结构：KD-Tree，Ball-Tree

缺点2：预测结果高度数据相关
尽管理论上所有机器学习算法都是数据相关的。但是k近邻算法预测样本中一旦有两个错误的值，足以让最终的预测结果产生错误，哪怕在更高的范围里，在这个空间中有更多正确的样本

缺点3：预测结果不具有可解释性
只是找到了和要预测的样本距离比较近的样本，就说这个样本属于这个类别，但是该样本为什么属于该类别根本无从知晓

缺点4：维数灾难
随着维度的增加，“看似相近”的两个点之间的距离越来越大，k近邻算法非常依赖两个点之间的距离

1维	0到1的距离：1
2维	（0，0）到（1，1）的距离：1.414
3维	（0，0，0）到（1，1，1）的距离：1.73
64维	（0，0，…0）到（1，1，…1）的距离：8
10000维	（0，0，…0）到（1，1，…1）的距离：100

解决方法：降维

机器学习流程回顾
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Bonjour_Yvonne

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

KNN算法（k近邻算法）原理及总结

m0_74405427的博客

10-09

6万+

KNN 算法，或者称 k最邻近算法，是有监督学习中的分类算法。它可以用于分类或回归问题，但它通常用作分类算法。

二、树模型(3)

qq_26430933的博客

05-22

1290

1. GBDT 特征筛选方法 https://blog.csdn.net/yangxudong/article/details/53899260

参与评论您还未登录，请先登录后发表或查看评论

K近邻算法中常见的问题

weixin_34221276的博客

10-19

721

第一个问题就是k值的选取问题？怎么快速找到k个邻居，尤其是在特征空间维数大及训练数据容量大时尤其必要。(1)k值的问题：当k值很小的时候，就相当于在较小的领域中训练实例进行预测，学习的近似误差会减小，只有与输入实例较近的训练实例才会对预测结果起作用（反过来想，离的越近，肯定越相似，离得越远，相似度就差很大）。但缺点是学习的估计误差会增大，预测结果会对近邻的实例点非常敏感，如果...

K近邻（KNN）算法面试问题汇总

longshaonihaoa的博客

05-26

2758

自己救自己系列，不然要没工作了，我太难了。我只是个木得感情的搬运机器，以下内容都附有原链接地址，你不想我搬运的话，可以联系我删除好勒。红色加粗是我见了好多次，感觉经常会考得点。感觉KNN的面试问题偏少，这里列几个我网上有印象的 1、KNN原理 2、KNN优缺点 3、KNN与K-means的区别 4、欧式距离与曼哈顿距离区别答案详见这位大佬的整理https://blog.csdn.net/A_102/article/details/88948326 5、KNN三要...

机器学习7更多关于k近邻算法的思考

m0_57297999的博客

12-02

577

k近邻算法是一个解决分类问题的算法，天然可以解决多分类问题；不仅如此，k近邻算法还可以解决回归问题；

08-更多关于k近邻算法的思考

qq_41033011的博客

10-10

448

k近邻算法的优点在前面几篇博客中已经系统的学习了k近邻算法。在这篇博客中主要对之前学习的 k 近邻算法进行一个总结。 k近邻算法是解决分类问题的算法，不仅如此，它天然地可以解决多分类问题。之前在谈到机器学习可以解决的问题中，对于分类这个问题，有一些算法是只能解决二分类问题的，而有一些算法是可以天然地解决多分类问题的。那么k近邻算法就是天然地可以解决多分类问题这样的一种算法。而且k近邻算法思想简单，但是效果十分强大。不仅如此，我们使用 k近邻算法还可以解决回归问题。回想一下，什么是回归问题？就

K-近邻算法

最新发布

huangQK的博客

10-09

1227

k-近邻算法（k-Nearest Neighbour algorithm），又称为KNN算法。KNN的工作原理：给定一个已知标签类别的训练数据集，输入没有标签的新数据后，在训练数据集中找到与新数据最邻近的k个实例，如果这k个实例的多数属于某个类别，那么新数据就属于这个类别。由那些离X最近的k个点来投票决定X归为哪一类。下面我们通过一个简单的小例子来了解一下k-近邻算法：图1-1图1-1是一个很基础的knn算法模型。

k-近邻算法

sikh_0529的博客

09-11

1万+

如果选择较小的 k 值，就相当于用较小的邻域中的训练实例进行预测，“学习”的近似误差（approximation error）会减小，只有与输入实例较近的（相似的）训练实例才会对预测结果起作用。如果选择较大的 k 值，就相当于用较大的邻域中的训练实例进行预测。简单来说: 通过距离度量来计算查询点（query point）与每个训练数据点的距离，然后选出与查询点（query point）相近的K个最邻点（K nearest neighbors），使用分类决策来选出对应的标签来作为该查询点的标签。

K近邻算法-讲解

06-17

K近邻算法（K-Nearest Neighbors, KNN）是一种基于实例的学习方法，广泛应用于模式识别、数据挖掘等多个领域。KNN的基本思想是：对于一个给定的样本，通过计算它与训练数据集中所有样本的距离，并选取距离最近的K个...

k近邻算法ppt.pptx

03-03

**K近邻算法（K-Nearest Neighbors, KNN）**是一种基础且重要的机器学习算法，主要用于分类和回归任务。它的核心思想是通过寻找测试样本最接近的K个训练样本，利用这些邻居的信息来预测未知样本的类别或属性。在...

KNN.zip_K._K近邻算法_k近邻_分类算法

09-24

**K近邻算法（K-Nearest Neighbors, KNN）**是机器学习领域中最基础且重要的算法之一，尤其在分类任务中应用广泛。它基于一个简单直观的原理：一个未知样本的类别可以通过其最接近的K个已知类别的样本进行预测，这K...

k-近邻算法_K-近邻算法_K._

09-29

**k-近邻算法（K-Nearest Neighbors，简称KNN）** k-近邻算法是一种基于实例的学习，属于监督学习方法，广泛应用于分类和回归问题。在分类任务中，KNN的基本思想是：对于一个新的未知类别的数据点，我们将其划归到...

衡量线性回归法的指标MSE、RMSE、MAE、R Squared（最佳）

Bonjour_h的博客

03-19

3059

线性回归算法的评测 &nbs

使用sklearn中的fetch_mldata报错以及可能解决方法

Bonjour_h的博客

05-17

2050

使用notebook输入from sklearn import fetch_mldata,在执行的时候报错错误的内容提示为cannot import name ‘fetch_mldata’ from ‘sklearn.datasets’ 可能的解决方法： 1、将原句改为 from sklearn.datasets import fetch_openml mnist = fetch_openml(‘mnist_784’) 2、将scikit-learn换成较低版本的 ...

使用PCA对数据进行降噪

Bonjour_h的博客

05-21

1937

回忆我们之前的例子 import numpy as np import matplotlib.pyplot as plt X = np.empty((100,2)) X[:,0] = np.random.uniform(0.,100.,size=100) X[:,1] = 0.75 * X[:,0] + 3. +np.random.normal(0,5,size=100) plt.scatter(X[:,0],X[:,1]) plt.show() 输出图片： from sklearn.decompos

7-6 scikit-learn中的PCA、寻找合适的维度

Bonjour_h的博客

05-17

1140

未降维时 scikit-learn 中的PCA¶ import numpy as np import matplotlib.pyplot as plt from sklearn import datasets import numpy as np import matplotlib.pyplot as plt from sklearn import datasets digits = datasets.load_digits() X = digits.data y = digits.target fr

8-4 为什么要有训练数据集和测试数据集

Bonjour_h的博客

05-24

844

import numpy as np import matplotlib.pyplot as plt np.random.seed(666) x = np.random.uniform(-3.0,3.0,size=100) X = x.reshape(-1,1) y = 0.5 * x ** 2 + x + 2 + np.random.normal(0,1,size=100) from sklearn.pipeline import Pipeline from sklearn.linear_model