sklearn数据预处理 —— StandardScaler标准化

西西_Cherry

已于 2022-06-21 15:06:26 修改

阅读量1.4k

点赞数

文章标签： sklearn 机器学习 python

于 2022-06-21 14:43:33 首次发布

本文链接：https://blog.csdn.net/super__yue/article/details/125390465

版权

标准化（Z-Score）公式为：
z = (x - u) / s
其中，u为训练集数据的平均值，如果with_mean参数为False则为0；s为训练集数据的方差，如果with_std参数为False则为1。均值和方差结果使用transform对象存储，可直接用在后续的数据例如测试集中。

数据集的标准化是许多机器学习估计器的共同要求：如果单个特征或多或少不像标准正态分布数据（例如，均值和单位方差均为0的高斯分布），那么这些估计器可能表现不好。

算法的目标函数中使用的许多元素（如支持向量机的RBF核或线性模型的L1和L2正则化器）假设所有特征都以0为中心，并且具有相同顺序的方差。如果一个特征的方差比其他特征的方差大几个数量级，它可能会支配目标函数，使估计器无法按照预期正确地从其他特征中学习。

例子：
在这里插入图片描述
方法：

fit(X[, y, sample_weight]) 计算均值和方差存储成StandardScaler()后续使用
fit_transform(X[, y]) Fit to data, then transform it.

官网API说明：
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

西西_Cherry

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

数据预处理和特征工程.rar

05-02

其拥有丰富的库支持数据预处理工作，如pandas用于数据处理，NumPy用于数值计算，scikit-learn（sklearn）则提供了大量的预处理工具，如Imputer用于填充缺失值，StandardScaler和MinMaxScaler进行数据标准化和归一化...

【机器学习笔记】【数据预处理】

芊樱烛渊的博客

09-16

2966

对于StandardScaler和MinMaxScaler来说，空值NaN会被当做是缺失值，在fit的时候忽略，在transform的时候保持缺失NaN的状态显示。并且，尽管去量纲化过程不是具体的算法，但在fit接口中，依然只允许导入至少二维数组，一维数组导入会报错。通常来说，我们输入的X会是我们的特征矩阵，现实案例中特征矩阵不太可能是一维所以不会存在这个问题。（通常来说我们现实输入的特征矩阵都是一维以上的数据）

1 条评论您还未登录，请先登录后发表或查看评论

Sklearn上机笔记--标准化

WSY_nian的博客

09-25

2359

数据挖掘sklearn上机笔记：标椎化、正则化相关

深入Sklearn预处理技术：数据清洗与标准化实战

最新发布

乘风之行

07-22

589

在机器学习项目中，数据预处理是至关重要的一步，它直接影响到模型的性能和准确性。Scikit-learn（简称sklearn）作为Python中最受欢迎的机器学习库之一，提供了丰富的数据预处理工具。本文将深入探讨sklearn中的数据清洗与标准化技术，并通过实战代码示例展示如何应用这些技术提升模型效果。

Python-sklearn数据预处理（单/多个数据集数据标准化、稳健标准化、缺失值填补）

rettbbetter的博客

02-05

3011

sklearn数据预处理部分，其中包括不同情况下的数据标准化以及遇到异常值（稳健标准化）或缺失值（缺失值填补）情况该如何对数据进行处理，简单复习上篇笔记sklearn三板斧

sklearn快速入门教程：标准化

Ryan-Yu的博客

08-09

2064

、

sklearn 数据标准化 StandardScaler

weixin_44360866的博客

08-18

718

sklearn StandardScaler

数据挖掘互评作业1：数据探索性分析与数据预处理.zip

03-03

在本项目“数据挖掘互评作业1：数据探索性分析与数据预处理”中，我们将深入探讨人工智能领域中的核心步骤——数据预处理。这个过程是机器学习项目的基础，因为高质量的数据是模型性能的关键。我们将使用Python编程...

精选_python数据分析（4）——数据预处理（上）_源码打包

03-09

对于数据标准化，可以使用sklearn.preprocessing模块的StandardScaler或MinMaxScaler进行处理。此外，对于非结构化数据，如文本和图像，可能需要进行额外的预处理步骤。例如，文本数据通常需要分词、去除停用词、...

使用sklearn优雅地进行数据挖掘

05-18

sklearn库提供了诸如StandardScaler、MinMaxScaler、Normalizer、Binarizer等标准化和归一化工具来转换特征。这些转换有的是无信息的，比如指数、对数变换；有的是有信息的，比如标准化、归一化等。有监督的转换如...

使用sklearn库进行数据标准化处理

unravel_20的博客

09-29

2224

min-max 归一化的手段是一种线性的归一化方法，它的特点是不会对数据分布产生影响。无量纲化的处理可以在以梯度和矩阵为核心的算法应用中提高算法的求解速度，尤其是在使用了梯度下降的方法时。当数据(x)按均值(μ)中心化后，再按标准差(σ)缩放，数据就会服从均值为0，方差为1的正态分布（即标准正态分布），这个过程叫做数据标准化。这就是均值方差归一化，这样处理后的数据将符合标准正态分布，常用在一些通过距离得出相似度的聚类算法中，比如 K-means。数据的无量纲化可以是线性的也可以是非线性的。

python——机器学习：sklearn数据预处理preprocessing标准化、归一化和纠偏

weixin_53848907的博客

05-31

3085

前段时间参加了一个数据建模比赛，机器学习部分主要是应用python的sklearn库，现整理一下自己当时的复习内容。整个数据建模的第一部分也是最主要的部分是数据预处理。其常规顺序（不一定全需要做）为：处理离群值、处理缺失值、标准化或归一化、纠偏、连续特征离散化、类别特征编码、特征增强和对不平衡数据集的处理（仅针对分类问题）。本篇是数据预处理中的数据标准化或归一化和纠偏部分。

【原】关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

weixin_33949359的博客

12-09

2966

一、标准化（Z-Score），或者去除均值和方差缩放公式为：(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性（按列进行）减去其均值，并处以其方差。得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，方差为1。实现时，有两种不同的方式：使用sklearn.preprocessing.scale()函数，可以直接将给定数据进行标准化。12345678910111213...

sklearn实现数据标准化（Standardization）和归一化（Normalization）

asddoa的博客

02-04

2356

sklearn的标准化过程，即包括Z-Score标准化，也包括0-1标准化，并且即可以通过实用函数来进行标准化处理，同时也可以利用评估器来执行标准化过程。

【机器学习】详细解析Sklearn中的StandardScaler---原理、应用、源码与注意事项

创作高质量博文，分享知识，共同进步！

03-18

8677

🚀【机器学习】一文解锁StandardScaler的奥秘！🔓从原理到应用，从源码到注意事项，全面剖析这个强大工具！🌟无论是初学者还是进阶者，都能轻松get到它的精髓！👌通过本文，你将掌握StandardScaler的核心知识，避免踩坑，让机器学习之路更加顺畅！快来一起探索StandardScaler的神奇世界吧！#机器学习 #StandardScaler #数据预处理 #源码解析 #注意事项

sklearn中StandardScaler()

热门推荐

qq_47175528的博客

12-03

2万+

一、数学公式： 1.均值、去均值： (1) 均值：对每个特征求均值,即对每列求均值。 import numpy as np data = np.array([[1, 2], [4, 3]]) print('数组为：\n', data) mean = data.mean(axis=0) print('均值为：\n', mean) # 结果为数组为： [[1 2] [4 3]] 均值为： [2.5 2.5] （2）去均值：每个特征的值减去对应特征的均值。 move_m

python 中数组标准化函数StandardScaler

qaz57301的博客

05-22

7251

Python中StandardScaler from sklearn.preprocessing import StandardScaler sc = StandardScaler() x = sc.fit_transform(x) 一: 数组x标准化公式为数组，为数组x的平均值，为数组x的标准差，则标准化的公式为： import numpy as np from sklearn.preprocessing import StandardScaler sc = StandardScaler().

【机器学习实战】使用sklearn的StandardScaler方法实现数据标准化

在热爱技术的路上一直前行。

05-29

2165

1.数据标准化概述当数据(x)按均值(μ)中心化后，再按标准差(σ)缩放，数据就会服从为均值为0，方差为1的正态分布（即标准正态分布），而这个过程，就叫做数据标准化（Standardization，又称Z-Score normalization）。公式： 1.代码实现 from sklearn.preprocessing import StandardScaler data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]] scaler = StandardScal

sklearn库三种标准化与反标准化方法介绍

m0_56839722的博客

09-15

5925

详细介绍sklearn库三种标准化与反标准化方法

python 归一化_数据预处理——标准化/归一化（实例）

06-06

好的，下面是我对你的回答：在机器学习中，数据预处理是非常重要的一步。其中，标准化和归一化是两种常见的数据预处理方法。接下来我会给你介绍一下归一化的实例。归一化是将数据按比例缩放，使其落入一个小的特定区间内。归一化可以使得不同量纲的特征处于同一量级，避免了由于特征值过大而对模型产生的影响。下面是一个简单的例子，假设有一个数据集，其中包含了两个特征，分别是身高和体重。我们希望对这两个特征进行归一化处理。 ```python import numpy as np # 创建一个示例数据集 data = np.array([[170, 60], [180, 70], [160, 50], [155, 45]]) # 计算每个特征的最大值和最小值 maxs = np.max(data, axis=0) mins = np.min(data, axis=0) # 对数据进行归一化处理 normalized_data = (data - mins) / (maxs - mins) print(normalized_data) ``` 输出结果为： ```python array([[0.66666667, 0.66666667], [1. , 1. ], [0. , 0. ], [0. , 0. ]]) ``` 可以看到，经过归一化处理后，所有特征都被缩放到了0到1的范围内。当然，这只是一个简单的例子。在实际应用中，我们可能需要对多个特征进行归一化处理，并且需要考虑特征的分布情况等因素。