使用mlxtend库中的MinMaxScaling进行数据归一化处理-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00219/article/details/148508029

使用mlxtend库中的MinMaxScaling进行数据归一化处理

mlxtend rasbt/mlxtend: 是一个用于 Python 数据科学与机器学习的库，提供了许多实用的工具和函数，以简化和加速数据科学的工作流程。适合对 Python 数据科学与机器学习有兴趣的人，特别是想快速实现一些常用机器学习算法和数据处理功能的人。项目地址: https://gitcode.com/gh_mirrors/ml/mlxtend

什么是数据归一化？

数据归一化（Normalization）是机器学习数据预处理中常用的技术之一，它可以将不同量纲的数据转换到同一量纲下，消除数据特征之间的量纲影响。mlxtend库提供的MinMaxScaling是一种简单有效的归一化方法，能够将数据线性地映射到指定的范围内（通常是[0,1]区间）。

MinMaxScaling原理

Min-Max归一化的数学表达式为：

$$X_{sc} = \frac{X - X_{min}}{X_{max} - X_{min}}$$

其中：

$X$是原始数据
$X_{min}$是该特征的最小值
$X_{max}$是该特征的最大值
$X_{sc}$是归一化后的结果

这种归一化方法会将所有数据线性地变换到[0,1]区间内，当然也可以通过参数调整到其他指定区间。

为什么需要归一化？

许多机器学习算法对特征的尺度非常敏感，特别是那些基于距离计算的算法（如KNN、K-Means）和梯度下降优化的算法（如神经网络、逻辑回归）。归一化可以带来以下好处：

加速模型收敛：对于使用梯度下降的算法，归一化可以使各特征对目标函数的贡献度一致
提高模型精度：避免某些特征因为数值较大而主导模型训练
防止数值不稳定：某些算法在数值差异较大时可能出现计算问题

mlxtend中的MinMaxScaling使用

mlxtend库提供了minmax_scaling函数，可以方便地对pandas DataFrame和NumPy数组进行归一化处理。

示例1：对Pandas DataFrame进行归一化

import pandas as pd
from mlxtend.preprocessing import minmax_scaling

# 创建示例DataFrame
s1 = pd.Series([1, 2, 3, 4, 5, 6])
s2 = pd.Series([10, 9, 8, 7, 6, 5])
df = pd.DataFrame({'s1': s1, 's2': s2})

# 对DataFrame进行归一化
df_scaled = minmax_scaling(df, columns=['s1', 's2'])
print(df_scaled)

输出结果：

    s1   s2
0  0.0  1.0
1  0.2  0.8
2  0.4  0.6
3  0.6  0.4
4  0.8  0.2
5  1.0  0.0

示例2：对NumPy数组进行归一化

import numpy as np
from mlxtend.preprocessing import minmax_scaling

# 创建示例NumPy数组
X = np.array([[1, 10], [2, 9], [3, 8], 
              [4, 7], [5, 6], [6, 5]])

# 对NumPy数组进行归一化
X_scaled = minmax_scaling(X, columns=[0, 1])
print(X_scaled)

输出结果：

[[0.  1. ]
 [0.2 0.8]
 [0.4 0.6]
 [0.6 0.4]
 [0.8 0.2]
 [1.  0. ]]

参数详解

minmax_scaling函数的主要参数包括：

array：输入数据，可以是pandas DataFrame或NumPy数组
columns：指定需要归一化的列，可以是列名列表或列索引列表
min_val：归一化后的最小值，默认为0
max_val：归一化后的最大值，默认为1

例如，要将数据归一化到[-1,1]区间，可以这样调用：

df_scaled = minmax_scaling(df, columns=['s1', 's2'], min_val=-1, max_val=1)

适用场景与注意事项

MinMaxScaling特别适用于：

数据分布有明显边界的情况
需要保留原始数据分布形状的场景
数据中存在少量异常值但不想让它们过度影响结果

注意事项：

对异常值敏感：极端值会压缩大部分数据的范围
新数据可能超出原范围：如果新数据超出训练集的最小最大值，归一化结果会超出[0,1]范围
不适用于稀疏数据：可能会破坏数据的稀疏性

与其他归一化方法的比较

除了MinMaxScaling，常见的归一化方法还包括：

Z-score标准化：基于均值和标准差，适合数据近似正态分布的情况
Robust Scaling：基于中位数和四分位数，对异常值更鲁棒
MaxAbs Scaling：将数据除以最大绝对值，适合稀疏数据

选择哪种方法取决于数据特性和算法需求。当数据分布范围已知且没有极端异常值时，MinMaxScaling是一个简单有效的选择。

总结

mlxtend库中的MinMaxScaling提供了一种简单直观的数据归一化方法，特别适合初学者使用。通过将数据线性映射到指定区间，它可以帮助许多机器学习算法更好地工作。在实际应用中，建议根据数据特性和算法需求选择合适的归一化方法，并在模型评估时验证归一化处理的效果。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考