KNN算法数据归一化处理（持续更新中）

最新推荐文章于 2025-03-23 01:51:24 发布

Ifordzhang

最新推荐文章于 2025-03-23 01:51:24 发布

阅读量1.6k

点赞数 1

文章标签：数据分析机器学习 python

本文链接：https://blog.csdn.net/Ifordzhang/article/details/116499800

版权

本文详细介绍了KNN算法中的数据归一化处理，包括手动处理方法和使用sklearn的MinMaxScaler，强调了归一化不改变数据分布的重要性。同时，讨论了KNN算法的优缺点，如计算效率低、对噪声敏感和需要归一化等，并提出模型优化应关注运算速度、可解释性和模型效果，遵循先训练集后测试集的归一化原则。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据归一化处理

公式：（每个值-最小值）/（最大值-最小值）
数据归一化处理，不会改变数据原有的分布情况
模拟的数据集

data = [[-1,201],[-0.5,189],[0,199],[1,187],[1,200],[2,196]]
data = pd.DataFrame(data)
data

在这里插入图片描述

手动处理

以其中一列为例（具体根据业务场景）

data[1] =(data[1]-data[1].min())/(data[1].max()-data[1].min())
data

在这里插入图片描述

使用sklearn中prepprocessing 中的MinMaxScaler

from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
mms.fit(data)
data_new = pd.DataFrame(mms.transform(data))
data_new

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ifordzhang

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

KNN，数据归一化

无境

11-21

2360

KNN - K近邻算法 K-Nearest Neighbors 特点思想极度简单应用数学知识少效果好（缺点？）可以解释机器学习算法使用过程中的很多问题更完整的刻画机器学习应用的流程 K近邻算法取一个k值，假设k=3，根据一个点A的位置，计算距离这个点最近的3（k）个点的的类型。来进行投票产生A的类型计算距离： KNN的过程 import numpy as np from ...

机器学习 -- KNN算法（十一数据归一化）

Leo的博客

11-09

2848

一. 为什么需要数据归一化？假设有如下数据，当我们在计算距离的时候会发现样本间的距离被发现时间所主导，此时就需要进行数据的归一化操作。二. 归一化：将所有数据映射到同一尺度。 1. 最值归一化：将所有数据映射到0到1之间。（1）适用场景：适用于分布有明显边界的情况；受outlier影响较大。（2）计算公式： 2. 均值方差归一化（standardization）：...

参与评论您还未登录，请先登录后发表或查看评论

机器学习——KNN数据均一化

最新发布

m0_60548895的博客

03-23

830

在KNN（K-近邻）算法中，数据均一化（归一化）是预处理的关键步骤，用于消除不同特征量纲差异对距离计算的影响。

机器学习-kNN-数据归一化

taoke的博客

06-07

3776

机器学习-kNN-数据归一化 一、为什么需要数据归一化 　　不同数据之间因为单位不同，导致数值差距十分大，容易导致预测结果被某项数据主导，所以需要进行数据的归一化。　　解决方案：将所有数据映射到同一尺度二、最值归一化 normalization 　　最值归一化：把所有数据映射到0-1之间　　　　适用于分布有明显边界的情况；受ou...

KNN算法3-归一化

代码笔记

05-29

749

1.数据归一化处理仅仅适合数据有明显边界的数据 import numpy as np import matplotlib.pyplot as plt x = np.random.randint(0, 100, 100) (x - np.min(x)) / (np.max(x) - np.min(x)) 矩阵 X = np.random.randint(0, 100, (50, 2)) X[:,...

KNN—数据归一化scale

代码笔记

05-29

625

import numpy as np class StandardScaler: def __init__(self): self.mean_ = None self.scale_ = None def fit(self, X): """根据训练数据集X获得数据的均值和方差""" assert X.ndim =...

Python数据归一化的KNN算法.zip

10-22

本资源为Python利用KNN算法实现数据归一化 # 计算每个投掷点距离(predictPoint,ballcolor)的距离 distance = list(map(lambda item:((item[0]-predictPoint)**2+(item[1]-ballcolor)**2)**0.5,feature)) # 对...

Python机器学习：KNN算法07数据归一化

持之以恒

12-01

427

数据归一化 import numpy as np import matplotlib.pyplot as plt 最值归一化 生成0-100,100个整数 #最值归一化 Normalization x = np.random.randint(0,100,size = 100) print(x) (x - np.min(x)) / (np.max(x) - np.min(x)) X = np.random.randint(0,100,(50,2)) print(X[:10,:]) X = np.arra

KNN算法（距离度量、归一化标准化）--day06

qq_56750282的博客

08-08

2622

其中p≥1 是闵可夫斯基指数。切比雪夫距离（Chebyshev distance），也称为棋盘距离或无限范数距离，是在几何空间中计算两点之间的距离的一种方法，它使用的度量方式是各坐标数值差的绝对值的最大值。闵可夫斯基距离是一种重要的距离度量方法，能够根据p的值在曼哈顿距离和欧氏距离之间进行平滑过渡，并且可以适应不同的数据特性和应用需求。闵可夫斯基距离（Minkowski distance）是一种通用的距离度量方法，可以统一描述曼哈顿距离和欧氏距离，并且可以根据参数p的不同取值，适应不同类型的数据和问题。

机器学习实战1.3--KNN之归一化数值

beautiful77moon的博客

08-06

657

当根据数据集中提供的数据计算样本之间的距离时，可以使用欧式距离公式，例如：很容易发现，上面方程中数字差值最大的属性对计算结果的影响最大。但是如果这三种特征同等重要，就需要对原始数据进行改进。在处理这种不同取值范围的特征值时，我们通常采用的方法是将数值归一化，如将取值范围处理为0 - 1或-1 - 1之间。下面的公式可以将任意取值范围的特征值转化为0-1区间内的值： newValue=...

【PyTorch】KNN实战之MNIST数据分类与归一化处理

少年白马

03-16

4752

KNN的算法实现首先创建演示数据集 import numpy as np import matplotlib.pyplot as plt # 给出训练数据以及对应的类别 def createDataSet(): group = np.array([[1.0, 2.0], [1.2, 0.1], [0.1, 1.4], [0.3, 3.5], [1.1, 1.0], [0.5, 1.5]]) labels = np.array(['A', 'A', 'B', 'B', 'A', 'B'

第二篇：1.2 ——KNN中数据归一化原理,附数学推导

u013153465的博客

07-11

1040

本文为学习记录，写的不好请大家指正见谅，互相学习，也为自己巩固学习成果包括后续复习所用！ 1.为什么要用数据归一化 样本间的数据由于其中的某几个特征跨度较大，比如下图所示，样本的数据被时间所引导。两个时间之间的跨度较大，肿瘤大小数据相差不大，所以我们考虑距离远近的时候，时间特征对数据的影响就很大，如果我们对时间进行转换，转换成年，我们发现。肿瘤大小对数据的影响就大于时间对数据的影响...

sklearn笔记12 KNN数据归一化操作

weixin_44632711的博客

11-01

468

完整代码 sklearn8 6-KNN癌症诊断(3) 归一化的操作 X.head() 哪个数值更大，哪个数值越重要 # 归一化操作 X_norm1 = (X-X.min())/(X.max()-X.min()) X_norm1.head() X_train,X_test,y_train,y_test = train_test_split(X_norm1,y,test_size = 0.2) knn = KNeighborsClassifier() params = {'n_neighbors':

机器学习实战python版归一化数值和测试kNN算法以及构建完整可用系统

XD_Senior的博客

11-20

1433

经过前面的学习，我们已经能够较为熟练的应用python而且能够比较轻松的阅读书中的代码。第一博机器学习实战python环境搭建以及numpy和matplotlib安装遇到的各种问题（一）第二博机器学习实战python版本matplotlib安装遇到的各种问题和代码演示学习了几天的机器学习实战，现在已经完全不可收拾了，昨天加班搞完手头的事，今天就迫不及待的打开课本继续欣赏书中算法和代码了

机器学习之K近邻(K-NN)算法 (一)

guowei_huai的博客

05-26

986

前言 kNN(k -Nearest Neighbours)算法是非常简单易懂的算法，它的适用范围很广，并且在样本量足够大的情况下获得很好的模型效果。它是一种用于分类和回归的非参数统计方法。 knn算法的理论和实战将会分为三个部分进行讲解，这是第一部分。本部分具体内容如下：讲解K-NN算法的基本概念、原理 k的选取、特征归一化 一、 k近邻算法的基础参考维基百科，我们给出以下解释：在k-NN分类中，输出是一个分类族群。一个对象的分类是由其邻居的"多数表决"确定的，k个最近邻中最多的分类决

Python机器学习--KNN归一化、距离的惩罚

weixin_48678602的博客

09-23

1002

1. 归一化 1.1 距离类模型归一化的需求什么是归一化呢?我们把X放到数据框中来看一一眼，你是否观察到，每个特征的均值差异很大?有的特征数值很大。有的特征数值很小，这种现象在机器学习中被称为"星纲不统一"。 NN是距离类模型,欧氏距离的计算公式中存在若特征上的平方和: 试想看看，如果某个特征x的取值非常大，其他特征的取值和它比起来都不算什么，那距离的大小很大程度上都会由这个巨大特征x来决定，其他的特征之间的距离可能就无法对d(A,B) 的大小产生什么影响了，这种现象会让KNN这样的距离类模型的效果大

数据转换：标准化vs 归一化（附代码&链接）

数据分析

11-25

688

作者：Clare Liu, 英国金融科技数据科学家翻译：林鹤冲校对：王紫岳本文约2300字，建议阅读10分钟本文将解释数据转换中常见的特征缩放方法：“标准化”和“归一化”的不同之...

K-近邻算法（KNN）

m0_37683606的博客

09-17

1425

一文搞定k-近邻算法一. k-邻近算法的基本概念二. k-邻近算法中k的选取以及特征归一化的重要性一. k-邻近算法的基本概念 k-邻近算法是一种基本的分类和回归方法。本章只讨论k-邻近算法在分类问题中的应用。 k-邻近算法，即给定一个训练集，对新输入的实例，在训练数据集中找到与该实例最邻近的k个实例，然在这k个实例中，看看那个类别包含的实例比较多，则这个测试集就属于哪一个类别。如上图所示，有两类不同的样本数据，分别用蓝色的小正方形和红色的三角形来表示。当确定一个k后，也就是确定一个距离，在这个距离范

《机器学习实战》KNN

nlrkbqndrhh的博客

12-13

770

一.KNN简介 KNN(K-Nearest-Neighbor): 采用测量不同特征值间的距离或相似度的方法进行分类 1.算法原理：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与k个最相似的数据进行比较，选择k个数据中出现次数最多的分类，作为新数据的分类 ...

knn算法海伦约会中数据处理选择归一化还是标准化

10-17

在KNN算法应用于"海伦约会"这类案例中，尤其是当特征数据来自不同尺度时，通常会选择数据预处理来增强模型性能。对于KNN，因为它的决策基于最近邻居的距离，所以数据的尺度是非常重要的。为了消除因特征尺度差异带来的影响，数据预处理的两个常见选项是： 1. 归一化[^1]：将每个特征缩放到0到1的范围内，通过最小-最大规范化（Min-Max Scaling）实现。这样可以确保每个特征对距离计算的贡献是一致的。 ```python from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() data_normalized = scaler.fit_transform(data) ``` 2. 标准化：使用Z-score标准化（也称为零均值单位方差），使得数据服从正态分布并且平均值为0，标准差为1。这对于数值特征尤其重要，因为它消除了特征间的量纲差异。 ```python from sklearn.preprocessing import StandardScaler scaler = StandardScaler() data_standardized = scaler.fit_transform(data) ``` 选择哪种方法取决于具体应用场景，如果数据范围差异较大，归一化可能更合适；而如果数据接近正态分布，标准化可能效果更好。在实践中，有时两者结合使用（比如先归一化再标准化）以优化KNN的效果也是常见的做法。