两个常用的数据标准化方法及Matlab和Python实现

参考:数据归一化和两种常用的归一化方法,博主对原文进行了润色并添加了Matlab和Python实现。

数据标准化处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果。为了消除指标(特征)之间的量纲影响,数据集需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。

为什么原文题目是归一化而本文题目采用标准化呢?虽然原文的题目为归一化,但是提及两种方法时用的是标准化。另外,需要指出的是,归一化和标准化是不同的概念,因为意思相近,而且大家讨论的概念内涵不统一,导致"标准化"和"归一化"这两个词长期被混用并被传播

这里我理解的也比较有限,也说不太清楚,感兴趣的参考一下:

  1. 标准化和归一化什么区别? - 龚焱的回答 - 知乎
  2. Feature scaling - Wikipedia
  3. Normalization (statistics) - Wikipedia
  4. 机器学习数据预处理——标准化/归一化方法

一、两种常用的标准化方法

1. Min-Max标准化

Min-Max标准化称也为离差标准化,是对原始数据的线性变换,使结果值映射到 [ 0 , 1 ] [0, 1] [0,1]之间。转换函数为: x ∗ = x − m i n m a x − m i n x^* = \frac {x - min}{max-min} x=maxminxmin,其中 m a x max max为原始样本数据的最大值, m i n min min为原始样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致 m a x max max m i n min min的变化,需要重新定义。

2. Z-score标准化

这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。转化函数为: x ∗ = x − μ σ x^* = \frac {x-\mu}{\sigma} x=σxμ,其中 μ \mu μ为原始样本数据的均值, σ \sigma σ为原始样本数据的标准差。

二、Matlab实现

在Matlab中,Min-Max标准化和Z-score标准化的函数分别是mapminmaxzscore,help查看一下文档吧。

% Min-Max标准化(Min=0,Max=1)
normalized_data = mapminmax(source_data', 0, 1)';
normalized_data = normalized_data';
% Z-score标准化
normalized_data = zscore(source_data);

自己实现:

function [normalized_data] = normalize(source_data, kind)
% 数据的标准化(归一化)处理
% 参数 source_data 可用格式的源数据
% 参数 kind 代表何种归一化, 默认为1. 1代表Min-Max标准化,2代表Z-score标准化.
% 返回归一化后的数据

if nargin < 2 % 如果参数少于2个,默认进行Min-Max标准化
    kind = 1; 
end;

[m, n]  = size(source_data);
normalized_data = zeros(m, n);

%% Min-Max标准化(Min=0,Max=1)
if kind == 1
    for i = 1:n
        ma = max( source_data(:, i) ); % Matlab中变量名不宜和函数名相同,所以不用max、min、mean等变量名
        mi = min( source_data(:, i) );
        normalized_data(:, i) = ( source_data(:, i)-mi ) / ( ma-mi );
    end
end
%% Z-score标准化
if kind == 2
    for i = 1:n
        mea = mean( source_data(:, i) );
        st = std( source_data(:, i) );
        normalized_data(:, i) = ( source_data(:, i)-mea ) / st;
    end
end

三、Python实现

在Python中,Min-Max标准化和Z-score标准化的函数一般借助sklearn中的preprocessing模块。

from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.dataset import load_iris
import numpy as np

iris = load_iris()
data = iris.data
# 写法一
# Min-Max 标准化
minMaxScaler = MinMaxScaler().fit(data) 
data_transformed = minMaxScaler.transform(data)
# Z-score标准化
standardScaler = StandardScaler().fit(data)
data_transformed = standardScaler.transform(data)

# 写法二
data_transformed = MinMaxScaler().fit_transform(data)
data_transformed = standardScaler().fit_transform(data)

写法一更为灵活,可以使用返回的scaler对象对相同数据集中的数据进行预处理。比如数据集被分成训练集和测试集时,对训练集进行标准化后得到scaler对象,之后借助其对测试集进行相同的处理。如下

from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.dataset import load_iris
from sklearn import svm
import numpy as np

iris = load_iris()
data = iris.data
target = iris.target

X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2)
scaler = MinMaxScaler().fit(X_train)
X_train_transformed = scaler.transform(X_train) # 对训练集进行标准化处理
# 训练
clf = svm.SVC()
clf.fit(X_train_transformed, y_train)
# 测试
X_test_transformed = scaler.transform(X_test) # 对测试集进行标准化处理
y_test_pred = clf.predict(X_test_transformed)

参考资料:

  1. 数据归一化汇总
  • 17
    点赞
  • 166
    收藏
    觉得还不错? 一键收藏
  • 13
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值