特征工程之数据预处理-数据标准化

数据标准化是消除特征变量量纲影响的关键步骤,尤其对K近邻、支持向量机等基于距离的算法至关重要。本文介绍了min-max标准化和Z-score标准化两种方法,并探讨了哪些模型需要或不需要数据标准化处理。实践中,可以通过比较模型预测准确度来决定是否进行数据标准化。
摘要由CSDN通过智能技术生成

数据标准化(也称为数据归一化),它的主要目的是消除不同特征变量量纲级别相差太大造成的不利影响。对于以特征距离为算法基础的机器学习算法(如K近邻算法),数据标准化尤为重要。数据标准化的两种方法——min-max标准化及Z-score标准化。

#(1)min-max标准化

min-max标准化(Min-Max Normalization)也称离差标准化,它利用原始数据的最大值和最小值把原始数据转换到[0,1]区间内,转换公式如下:

import pandas as pd
x=pd.DataFrame({'酒精含量(%)':[50,60,40,80,100],'苹果酸含量(%)':[2,1,1,3,2]})
y=[0,0,0,1,1]

'''这里只需要对特征变量X进行标准化处理,目标变量y不用处理,在Python中可以直接调用min-max标准化的相关模块,代码如下'''

from sklearn.preprocessing import MinMaxScaler
x_new=MinMaxScaler().fit_transform(x)
print(x_new)

 &#

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值