dataframe数据标准化处理_数据预处理:标准化,归一化,正则化

本文介绍了数据预处理中的关键步骤:归一化、标准化和正则化。归一化通常将数据映射到特定范围,如[0, -1]或[-1, 1],有助于消除量纲影响。标准化,如Z-Score标准化,使数据具有0均值和1标准差,加速机器学习模型的收敛。正则化则用于防止过拟合,L1和L2正则化分别产生稀疏和非稀疏解。文章还提及二元化、独热码编码、标准化和正则化的实际应用。" 79624137,7419099,分块枚举与链表解决数列操作问题,"['数据结构', '算法', '分块算法', '查询操作', '修改操作']
摘要由CSDN通过智能技术生成

373ca9d3c447add568919efe963d43c3.png

1. 归一化(Normalization)

归一化 (Resaling) 一般是将数据映射到指定的范围,用于去除不同维度放入量纲以及量纲单位。常见的映射范围有 [ 0, -1 ] 和 [ -1, 1],最常见的归一化方法就是 Min-Max 归一化:

00494ee274b2d586d3c8bb5422e53320.png

涉及距离度量、协方差计算时不能应用这种方法,因为这种线性等比例缩放无法消除量纲对方差、协方差的影响。

min_max_scaler = preprocessing.MinMaxScaler()
data_T_minmax = min_max_scaler.fit_transform(data.T)
data_minmax = data_T_minmax.T

2. 标准化(Standardization)

最常见的标准化方法:Z-Score 标准化。

59dbc6dc022231adea5725509174216c.png

其中μ是样本均值,σ是样本数据的标准差。

f67a8808fdd74e62996fb755778fbd7b.png

上图则是一个散点序列的标准化过程:原图 -> 减去均值 -> 除以标准差。

显而易见,变成了一个均值为 0 ,方差为 1 的分布,下图通过 Cost 函数让我们更好的理解标准化的作用。

e28a3fda76393ee2519c5ebaf7af5537.png

机器学习的目标无非就是不断优化损失函数,使其值最小。在上图中,J (w, b) 就是我们要优化的目标函数。

我们不难看出,标准化后可以更加容易地得出最优参数 w 和 b 以及计算出 J (w, b) 的最小值,从而达到加速收敛的效果。

注:上图来源于 Andrew Ng 的课程讲义

from sklearn import preprocessing
import pandas as pd
import numpy as np
mean=[4,3]
cov=[[2.0,5.],[1.,1.]]
x=np.random.multivariate_normal(mean,cov
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值