谈谈数据归一化与标准化

背景:

归一化(Normalization)和标准化(Standardization)是常用的数据预处理技术,用于将不同范围或不同单位的特征值转换为统一的尺度,以便更好地进行数据分析和模型训练。一句话:消除量纲对距离的影响。

数据归一化:

归一化(Normalization)是一种常见的数据预处理方法,用于将不同特征之间的数值范围映射到相同的区间。

最小-最大缩放(Min-Max Scaling)是将数据线性映射到指定的最小值和最大值之间的区间。具体公式如下:

X s c a l e d = ( X − X m i n ) / ( X m a x − X m i n ) X_scaled = (X - X_min) / (X_max - X_min) Xscaled=(XXmin)/(XmaxXmin)
其中,X是原始特征数据,X_min是该特征的最小值,X_max是该特征的最大值。

归一化后的数据一定在0-1之间。归一化后的数据与原始数据具有相同的维度。

import pandas as pd
from hopkins_test import hopkins_statistic

data = pd.read_csv(r'./data/city.txt', sep=',')
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# 提取经度和纬度数据,并转换为NumPy数组
xx = data[['longitude', 'latitude']]
X = data[['longitude', 'latitude']].values
print(xx.head())
print(type(xx)) # <class 'pandas.core.frame.DataFrame'>
print(type(X)) # <class 'numpy.ndarray'>
# 归一化处理
scaler = MinMaxScaler(feature_range=(0, 10000)) # 属性值在 0~10000 之间
normalized_data1 = scaler.fit_transform(xx)
normalized_data2 = scaler.fit_transform(X)
print(normalized_data1, type(normalized_data1))
print(normalized_data2,type(normalized_data2))

我们可以发现归一化的输入数据可以是numpy类型,也可以是dataframe类型,表头不影响结果输出。

在这里插入图片描述

数据标准化:

Z-score标准化是将数据映射到均值为0,标准差为1的正态分布上。具体公式如下:
X s c a l e d = ( X − X m e a n ) / X s t d X_scaled = (X - X_mean) / X_std Xscaled=(XXmean)/Xstd
其中,X是原始特征数据,X_mean是该特征的均值,X_std是该特征的标准差。

import pandas as pd
from hopkins_test import hopkins_statistic
import numpy as np

data = pd.read_csv(r'./data/city.txt', sep=',')
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# 提取经度和纬度数据,并转换为NumPy数组
xx = data[['longitude', 'latitude']]
X = data[['longitude', 'latitude']].values
print(xx.head())
print(type(xx))
print(type(X))
# 归一化处理
# 创建StandardScaler对象
scaler= StandardScaler()
normalized_data1 = scaler.fit_transform(xx)
normalized_data2 = scaler.fit_transform(X)
print(normalized_data1, type(normalized_data1))
print(normalized_data2,type(normalized_data2))

在这里插入图片描述

标准化是通过减去均值并除以标准差来使数据具有均值为0,标准差为1的分布,而不是将数据映射到特定的范围,所有结果结果不一定都在0-1之间。

如何选择:

归一化和标准化的选择取决于数据的特点和具体的应用场景。

  • 归一化适用于以下情况:
    • 当特征的取值范围非常不同,且需要保留原始数据的分布形状时,可以使用归一化。
    • 归一化对于某些要求输入数据在固定范围内的算法(如神经网络)非常有用。

标准化适用于以下情况:

  • 当特征的取值范围差异较大,并且算法对于具有零均值和单位方差的数据更敏感时,可以使用标准化。
  • 标准化对于一些基于距离或基于梯度的算法(如K-means聚类、支持向量机等)非常有用。

​ 最好的方法是尝试不同的转换方法并评估模型的性能。您可以使用交叉验证等技术来比较不同转换方法对模型性能的影响。根据实际情况选择最适合您数据和模型的转换方法。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

acmakb

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值