机器学习之数据变换——基于Scikit-Learn

最新推荐文章于 2024-04-16 17:30:52 发布

elma_tww

最新推荐文章于 2024-04-16 17:30:52 发布

阅读量390

点赞数

分类专栏：《Python机器学习基础教程》笔记

本文链接：https://blog.csdn.net/elma_tww/article/details/88357107

版权

《Python机器学习基础教程》笔记专栏收录该内容

13 篇文章 13 订阅

订阅专栏

《Python机器学习基础教程》笔记

一些算法，例如神经网络和SVM对数据缩放非常敏感，因此，通常的做法是对特征进行调节，使数据表示更适合于这些算法。Scikit-Learn中有4中数据变换方法，分别为：

1.StandardScaler：确保每个特征的平均值为0，方差为1，使所有特征都位于同一量级。

2.RobustScaler：工作原理与StandardScaler类似，但RobustScaler使用的是中位数和四分位数。

3.MinMaxScale：计算每个特征的范围（最大值 - 最小值），移动数据，使所有特征都刚好位于0到1之间。

4.Normalizer：将数据点投影到半径为1的圆上。

随便写两行代码示例一下用法：

scaler = MinMaxScaler()
X_scaled = scaler.transform(X)

这里用的是MinMaxScale方法，如果要用其他几种，则将MinMaxScale改为需要的缩放方式即可，如下：

scaler = StandardScaler()
scaler = RobustScaler()
scaler = Normalizer()

需要注意的是，使用MinMaxScale变换时，能保证训练集缩放到0到1之间，但测试集不一定在此范围。因为最小值和最大值是根据训练集定的，测试集的某些数据可能在此范围外。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

elma_tww

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Scikit-Learn 高级教程——高级模型

Echo_Wish的博客

01-27

686

本篇博客深入介绍了 Scikit-Learn 中一些高级模型，包括集成学习方法、核方法和深度学习模型。这些模型在不同类型的问题中表现出色，但在选择和使用时需要谨慎考虑其适用性和计算资源。希望这篇博客对你理解和应用高级模型有所帮助！

使用 scikit-learn 构建模型

西门催学不吹雪

02-19

2618

文章目录1. sklearn 介绍2. sklearn 转换器处理数据2.1 加载数据集2.2 划分数据集3. 聚类模型4. 分类模型5. 回归模型 1. sklearn 介绍 scikit-learn（简称 sklearn）是一个简单有效的数据挖掘和数据分析工具，可以提供用户在各种环境下重复使用。而且 sklearn 建立在 Numpy、Scipy 和 Matplotlib 基础之上，对一些...

参与评论您还未登录，请先登录后发表或查看评论

实用机器学习笔记（五）：数据变换

Liu Feng's Blog

03-11

706

文章目录Data Transformation1. Normalization for Real Value Columns2. Image Transformations3. Video Transformations4. Text transformations5. Summary Data Transformation Data are transformed into forms appropriate for ML algorithms We focus on methods in a part

【机器学习】——数据清理、数据变换、特征工程

lingxw的博客

01-02

1896

看看数据长什么样子，找其他的规则，从数据中提起有弱噪音的标号，也是可以用来训练模型的】没有的话就去收集数据【发掘在哪里找数据；生成自己需要的数据；3、数据预处理：看看数据长什么样子；通常来说数据是有很多噪音的，要对数据清洗；将数据变成我们需要的格式；数据质量：数据的多样性：产品所关心的方方面面都要考虑；因为机器学习的算法比较喜欢定义的比较好的、它能比较好的去处理的、固定长度的输入输出。大数据的管理是一件很难的事情：存储；需要做数据的清理，将错误的信息纠正过来；对数据的特征进行提取。数据的质与量要做权衡；

机器学习（二）：数据转换

weixin_30432179的博客

08-23

273

1.数据的标准化标准化的原因：在于如果有些特征的方差过大，则会主导目标函数从而使参数估计器无法正确地去学习其他特征。消除量纲的影响。把一个百分制的变量与一个5分值的变量标准化到同一个量纲时才具有可比性 1.1 z_score标准化将特征数据的分布调整成标准正态分布，也叫高斯分布。代码实现：from sklearn.preprocessing import StandardSc...

常用的数据转换方法

m0_46698362的博客

08-10

1万+

1特征编码模型输入的特征通常需要是数值型的，所以需要将非数值型特征转换为数值特征，如性别、职业、收入水平、国家、汽车使用品牌等。特征编码包括数字编码、One-Hot编码、哑变量编码方法。 1.1数字编码一种简单的数字编码方法是从0开始赋予特征的每一个取值一个整数。对于等级型特征，按照特征取值从小到大进行整数编码可以保证编码后的数据保留原有的次序关系。原特征收

python中scale函数_Python之 sklearn：sklearn中的RobustScaler 函数的简介及使用方法之详细攻略...

weixin_39737368的博客

12-03

1024

Notes-----For a comparison of the different scalers, transformers, and normalizers,see :ref:`examples/preprocessing/plot_all_scaling.py`.https://en.wikipedia.org/wiki/Medianhttps://en.wikipedia.org/w...

《机器学习实战：基于Scikit-Learn、Keras和TensorFlow第2版》-学习笔记（8）：降维

Morganfs的博客

05-08

1317

· Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition, by Aurélien Géron (O’Reilly). Copyright 2019 Aurélien Géron, 978-1-492-03264-9. · 《机器学习》周志华 · 环境：Anaconda（Python 3.8） + Pycharm · 学习时间：2022.05.07~2022.05.08 第八章降维许多机器学习问.

[Python3] 机器学习 ——（二）Scikit-Learn简介

進撃の算法

05-17

3306

二、Scikit-Learn简介 Scikit-Learn为各种常用机器学习算法提供了高效版本。（一）Scikit-Learn的数据表示 机器学习是从数据创建模型的学问，因此首先需要了解怎样表示数据爱你让计算机理解。Scikit-Learn认为数据表示（data representation）最好的方法就是用数据表的形式。 1. 数据表基本的数据表就是二维网格数据，其中的每一行表示数据集中的每个样本（samples），而列表示构成每个样本的相关特征（features）。 # 鸢尾花数据集 import

机器学习算法程序库——Scikit-Learn简介：特征工程

清水河C罗——Leonardo-Liu

01-18

363

本博客所有内容均整理自《Python数据科学手册》，欢迎讨论交流~ 对于机器学习实例，我们很多时候都是直接假设数据集已经是一个干净的，即数据集是一个[n_samples, n_features]的特征矩阵。但是在现实生活和工作中，数据几乎不可能如此干净，因此，我们需要在获取数据之后，对这些数据进行转换，尽力转换成特征矩阵的数值。这个过程一般被称为特征工程。接下来，我们就首先介绍一些特征...

机器学习中MinMaxScaler

silent1cat的博客

09-03

1万+

概述 MinMaxScaler将通过估计器分别缩放和转换每个元素成给定范围的值。(如：[0, 1]之间的值) 数学公式 X_std = (X - X.min(axis=0)) / (X.max(axis=0) -X.min(axis=0)) X_scaled = X_std * (max - min) + min 其中min，max为feature_range的范围(feature_range为MinMaxScaler的参数可以设置最终转换的范围) 实际转换过程公式如下： X_scaled = scale

python归一化函数MinMaxScaler的理解

qaz57301的博客

05-09

5698

""" python归一化函数MinMaxScaler的理解 class sklearn.preprocessing.MinMaxScaler(feature_range=0, 1, *, copy=True) """ from sklearn.preprocessing import MinMaxScaler import numpy as np x = np.array([[1., -1., 2.], [2., 0., 0.], [0., 1.,.

【机器学习-17】数据变换---小波变换特征提取及应用案列介绍

热门推荐

君莫笑的博客

04-06

3万+

特征缩放一、为什么要特征数据缩放？有特征的取值范围变化大，影响到其他的特征取值范围较小的，那么，根据欧氏距离公式，整个距离将被取值范围较大的那个特征所主导。为避免发生这种情况，一般对各个特征进行缩放，比如都缩放到[0,1]，以便每个特征属性对距离有大致相同的贡献。作用：确保这些特征都处在一个相近的范围。优点：1、这能帮助梯度下降算法更快地收敛，2、提高模型精直接求解的缺点： 1、当x1 特征对应权重会比x2 对应的权重小很多，降低模型可解释性 2、梯度......

机器学习（二）之无监督学习：数据变换、聚类分析

snail9610的博客

05-04

3661

文章目录0 本文简介1 无监督学习概述2 数据集变换2.1 预处理和缩放2.2 程序实现2.3 降维、特征提取与流形学习2.3.1 主成分分析2.3.2 非负矩阵分解2.3.3 用t-SNE进行流形学习3 聚类3.1 K均值聚类3.2 凝聚聚类3.3 DBSCAN3.4 聚类算法的对比与评估4 聚类分析小结4 聚类分析小结 0 本文简介本文根据Andreas C.Muller的《Introduc...

sklearn数值特征连续值处理3: 对数变换COX-BOX

sanjianjixiang的博客

11-11

1728

import pandas as pd import numpy as np fcc_survey_df = pd.read_csv('fcc_2016_coder_survey_subset.csv',encoding='utf-8') fcc_survey_df['Income_log'] = np.log(1 + fcc_survey_df['Income']) # 对数变换 fcc_s...

机器学习之数据预处理（一）数据变换

繁华三千东流水不舍昼夜的博客

08-05

1950

数据变换数据变换就是指将数据转换或统一成更适合机器训练或数据分析的形式。比如在进行机器学习前，我们将不在同一个数量级的特征进行变换，使其都转换到0–1之间或者-1–1之间，一方面计算机会计算得更快，另一方面数量级相同，模型会收敛得更快。数据光滑：去掉数据中的噪声，分箱、回归和聚类等方法聚集：对数据进行汇总或聚集，如计算日销售数据、年销售数据数据泛化：使用概念分层规范化：将属性数据按比...

使用Neo4j和Scikit-Learn进行图数据机器学习

本文将探讨如何使用图数据库Neo4J和机器学习库Scikit-Learn进行机器学习任务，特别是利用图数据的特性来增强模型的性能和解释性。随着图神经网络（GNN）的兴起，图数据在机器学习中的应用越来越受到重视，各大深度...