最邻近方法nn_《k-NN最临近》知识点整理与思考

最新推荐文章于 2021-01-14 10:24:49 发布

weixin_39605894

最新推荐文章于 2021-01-14 10:24:49 发布

阅读量823

点赞数

文章标签：最邻近方法nn

本文链接：https://blog.csdn.net/weixin_39605894/article/details/111819706

版权

本文详细介绍了k-最近邻(k-NN)算法，包括其基本概念、实现过程、如何确定合适的k值以及交叉验证的重要性。讨论了特征工程、数据清洗、距离度量和超参数调优，并提到了在大数据场景下优化k-NN的方法，如KD树和LSH。同时，文章还提及了模型泛化、过拟合和欠拟合的概念，以及Python中的sklearn库在k-NN中的应用。

摘要由CSDN通过智能技术生成

一、k最近邻(kNN)的基本概念

k最近邻(k-Nearest Neighbors，k-NN)，采用该算法要实现对一个新的数据点做出预测，其会在训练集中寻找与这个新数据点距离最近的数据点，然后将找到的数据点的标签赋值给这个新数据点。

k-NN属于最简单的监督学习(supervised learning)算法之一，可用于分类(classification)、回归(regression)问题，其不需要对训练集中的数据做任何拟合等处理，只需要保存训练集数据即可进行预测。

k-NN中的k，其含义是考虑训练集中与新数据点最近的任意k个邻居，k=1即考虑最近的那个。对于分类问题推荐采用奇数的k，因为在可能出现的投票情形时可以保证不会出现平手；对于回归问题，原则上对k的奇偶性没有要求，回归问题的预测采用最相似的这k个预测值取平均。

k-NN算法比较适合应用在低维空间(特征比较少的数据)，算法实际复杂度比较高，将其应用到大数据时需要适当处理。

二、实现k-NN算法的过程

1.将所要分析的事物对象进行合适的数据化，即特征工程(Feature Engineering)，用各种特征描述事物，将它们表示成向量/矩阵/张量数据的形式。这里需要注意进行数据清洗、特征缩放：数据清洗去除无关分析的数据，或者将非数值化的数据转化为数值(独热编码，One-Hot Coding)；特征缩放主要用于处理数据中，不同的特征之间，量纲不同造成的数据值差异太大，导致某些特征容易被覆盖、得不到正确的处理，有线性归一化(Min-Max Normalization)和标准差标准化(Z-score Normalization)两种常用的方式。

需要注意的是&#x

最低0.47元/天解锁文章

weixin_39605894

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫