特征工程之数据预处理-数据标准化

最新推荐文章于 2024-05-19 21:54:13 发布

gulie8

最新推荐文章于 2024-05-19 21:54:13 发布

阅读量657

点赞数

分类专栏：数据挖掘与机器学习数据处理

本文链接：https://blog.csdn.net/gulie8/article/details/118963082

版权

数据标准化是消除特征变量量纲影响的关键步骤，尤其对K近邻、支持向量机等基于距离的算法至关重要。本文介绍了min-max标准化和Z-score标准化两种方法，并探讨了哪些模型需要或不需要数据标准化处理。实践中，可以通过比较模型预测准确度来决定是否进行数据标准化。

摘要由CSDN通过智能技术生成

数据标准化（也称为数据归一化），它的主要目的是消除不同特征变量量纲级别相差太大造成的不利影响。对于以特征距离为算法基础的机器学习算法（如K近邻算法），数据标准化尤为重要。数据标准化的两种方法——min-max标准化及Z-score标准化。

#(1)min-max标准化

min-max标准化（Min-Max Normalization）也称离差标准化，它利用原始数据的最大值和最小值把原始数据转换到[0，1]区间内，转换公式如下：

import pandas as pd
x=pd.DataFrame({'酒精含量(%)':[50,60,40,80,100],'苹果酸含量(%)':[2,1,1,3,2]})
y=[0,0,0,1,1]

'''这里只需要对特征变量X进行标准化处理，目标变量y不用处理，在Python中可以直接调用min-max标准化的相关模块，代码如下'''

from sklearn.preprocessing import MinMaxScaler
x_new=MinMaxScaler().fit_transform(x)
print(x_new)

关注

专栏目录