数据挖掘算法原理与实践第二关：线性转换

多加加多

已于 2022-01-21 11:33:28 修改

阅读量712

点赞数 1

分类专栏：机器学习文章标签：算法 sklearn

于 2022-01-21 11:28:23 首次发布

本文链接：https://blog.csdn.net/Dorcas_M/article/details/122617390

版权

本文介绍了数据挖掘中进行线性转换的重要性，包括映射到均匀分布和高斯分布的理论背景。提供了Yeo-Johnson和Box-Cox映射的代码实现，并提出了编程要求，即使用sklearn实现数据的非线性转换，以提升算法表现。通过实例展示了如何处理数据以达到均匀分布和高斯分布的效果。

摘要由CSDN通过智能技术生成

本关任务：利用sklearn对数据进行非线性转换。

为什么要进行线性转换

如果特征不服从或者近似服从标准正态分布（即，零均值、单位标准差的正态分布）的话，算法的表现会大打折扣，非线性转换就是将我们的特征映射到**均匀分布或者高斯分布(**即正态分布)。

映射到均匀分布

将最大的数映射为1，最小的数映射为1，其他的数按从小到大的顺序均匀分布在0到1之间，如有相同的数则取平均值
在这里插入图片描述
代码实现：

from sklearn.preprocessing import QuantileTransformer
import numpy as np
data = np.array([[1],[2],[3],[4],[5]])
quantile_transformer = QuantileTransformer(random_state=666)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

多加加多

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

sklearn数据预处理（二）非线性转换

qq_44745905的博客

06-03

1万+

@R星校长第2关：非线性转换为什么要非线性转换。映射到均匀分布。映射到高斯分布。为什么要非线性转换在上一关中已经提到，对于大多数数据挖掘算法来说，如果特征不服从或者近似服从标准正态分布（即，零均值、单位标准差的正态分布）的话，算法的表现会大打折扣。非线性转换就是将我们的特征映射到均匀分布或者高斯分布(即正态分布)。映射到均匀分布相比线性缩放，该方法不受异常值影响，它将数据映射到了零到一的均匀分布上，将最大的数映射为1，最小的数映射为0。其它的数按从小到大的顺序均匀分布在0到1之间，如有.

非线性转换

丁磊_ml的博客

08-11

8603

我们之前的课程都是假设数据是线性可分的，那么我们就可以用一条直线将其分开。比如，想这样然而现实生活中并不是这样的　像上面的那张图，无论我们用怎样的线性模型都无法将其很好的分开。但是我们发现一个圆可以很好的解决这个问题他的分类器方程为那么我们把1,x21x_1^2，x22x_2^2设定为z0z_0,z1z_1,z2z_2,就相当于得到了一条关于z的线性方程。

参与评论您还未登录，请先登录后发表或查看评论

听课笔记（第十二讲）：非线性转换 (台大机器学习）

Kylin-Xu的专栏

04-15

955

前面的分析都是基于“线性假设“，它的优点是实际中简单有效，而且理论上有VC 维的保证；然而，面对线性不可分的数据时（实际中也有许多这样的例子），线性方法不那么有效。 1，二次假设对于下面的例子，线性假设显然不奏效：我们可以看出，二次曲线（比如圆）可以解决这个问题。接下来就分析如何通过二次曲线假设解决线性方法无法处理的问题，

Python sklearn学习之数据预处理——非线性转换

洪城浪子的博客

08-01

5951

Python sklearn学习之数据预处理——非线性转换文章目录Python sklearn学习之数据预处理——非线性转换1. 两种常见的非线性转换1.1 分位数转换1.2 幂变换2. sklearn中非线性变换的实现2.1 映射到均匀分布2.1.1QuantileTransformer类2.2 映射到高斯分布2.2.1 Yeo-Johnson transform变换2.2.2 the Box...

机器学习基石之非线性转换（Nonlinear Transformation）

士杰的博客

04-24

2344

非线性转换（Nonlinear Transformation）前面讲了许多线性模型，但是假如数据并不是线性可分的，该如何处理呢？基本思路是将数据样本（特征）空间 X\mathcal{X}X 映射到 Z\mathcal{Z}Z 空间后，在 Z\mathcal{Z}Z 空间数据是线性可分的话，便可以在 Z\mathcal{Z}Z 空间上使用线性模型对数据分析。那么该映射叫做非线性特征转换 Φ\Ph...

educoder 数据挖掘算法原理与实践：数据预处理

木右加木就是木木

11-08

1668

第1关：标准化 # -*- coding: utf-8 -*- from sklearn.preprocessing import scale,MaxAbsScaler,MinMaxScaler #实现数据预处理方法 def Preprocessing(x,y): ''' x(ndarray):处理数据 y(str):y等于'z_score'使用z_score方法 y等于'minmax'使用MinMaxScaler方法 y等于'max

数据挖掘算法原理与实践：数据预处理（第一关-第五关）

最新发布

06-30

### 数据挖掘与数据分析应用案例：基于Python的卷积神经网络在Tensorflow算法中的文本分类研究 #### 一、数据和预处理在本研究中，我们关注的是如何利用卷积神经网络(Convolutional Neural Network, CNN)进行文本...

【机器学习基础】非线性变换

Jason Ding的专栏

02-01

1万+

引言在之前介绍的分类问题中，所涉及的分类的模型都是线性的，在非线性变换这一节中，我们将模型延伸到非线性的情况下来进行数据的分类。二次假设(Quadratic Hypotheses) 我们看到上面的例子，在左图中，圆圈和红叉的数据无法用一条直线将其分成两类，那么这这个例子中，我们其实可以用一个大圆圈将数据分类，所以现在我们考虑假设，该假设hSEP(x)是一个过原点的

高斯分布的非线性变换

走走走走走走你

08-31

1844

线性变换非线性变换对于非线性问题：这⾥ g (·) 表⽰ g : x → y，是⼀个⾮线性映射。它受零均值⾼斯噪声⼲扰，其协⽅差为 R。常用方法就是线性化，取均值处的一阶项，转化为熟悉的线性问题结论：证明：下面将用到SMW恒等变换【参考】《机器人学中的状态估计》 ...

单变量非线性变换

qq_41951186的博客

10-15

831

添加特征的平方或者立方可以改进线性回归模型，其他的变换通常也对变换某些特征有用，特别是应用数学函数，如log，exp或sin。虽然基于树的模型只关注特征的顺序，但线性模型和神经网络依赖于每个特征的尺度和分布。如果特征与目标之间存在非线性关系，那么建模就变得非常困难，特别是对于回归问题。log和exp函数可以帮助调节数据的相对比例，从而改变线性模型和神经网络的学习效果。此外，大部分模型都在每个特征（...

【随机过程】9 - 高斯分布及其非线性性质

qq_41741344的博客

01-03

1570

高斯分布及其非线性性质文章目录高斯分布及其非线性性质1. 概述2. Polynonial2.1 高阶矩2.1.1 一维高斯的高阶矩2.1.2 多维高斯高阶矩2.2 平方器2.2.1 相关函数2.2.2 分布函数3. Precewise Linear3.1 硬限幅器(极化)3.1.1 定义3.1.2 相关函数4. Price Theorem -- 分析非线性系统的工具4.1 公式定义4.2 公式证明4.3 price theorem的应用4.3.1 price theorem 与 hard limite

机器学习【一】————线性回归方法处理非线性数据

RoyZz_的博客

03-20

4578

线性回归方法处理非线性数据任务目标：代码内容：代码解析：1.读取excel表格数据2.拟合线性函数3.拟合非线性函数4.对结果进行评估总结：任务目标：前言：这周学习了用线性回归的方式处理，这是第一次运用，目前能了解线性回归的用法，但仍然不够深入，如果有看见了文章里有一些错误或疑惑的地方还请指出！欢迎大家评论区留言或私信。对excel表格数据进行提取，并用线性回归方式，求解非线性回归问题代码内容： import numpy as np import pandas as pd from matplot

sklearn 数据预处理

u011588619的博客

08-30

398

1、数据标准化 sklearn.perprocessing.scale sklearn.preprocessing.StandScaler 2、数据缩放 2.1 MinMaxScaler MaxAbsScaler 2.2稀疏数据缩放 2.3带有异常值得数据缩放 2.4缩放和百花 ...

【Python机器学习】零基础掌握QuantileTransformer数据预处理

Mr数据杨

11-09

809

是一种强大的数据预处理工具，它将数据转换到同一分布上，通常用于使数据集的特征分布更加均匀，减少极端值的影响。通过这种转换，可以更容易地比较和分析来自不同来源的数据，如环境监测站点的不同污染物读数。这种转换不仅可以揭示数据之间的隐藏模式，还能帮助识别异常值，为决策提供更可靠的数据支持。优点总结，的优点在于它能有效地处理具有异常值和不同规模的数据，使模型更稳定。转换后的数据更易于模型学习，且该方法能够适应多种数据分布，提高了模型的泛化能力。优点描述减少异常值影响。

sklearn数据映射之分位数均匀分布映射-Quantile_tranformer

qq_30477323的博客

04-02

4703

from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn import preprocessing import numpy as np import matplotlib.pyplot as plt #load the iris dataset...

线性规划基本原理及例子及其matlab代码（包含非线性转线性，多目标函数转化为单一目标函数和linprog代码解释)

qq_57110898的博客

07-23

1053

线性规划问题，linprog代码解释，非线性转化为线性以及多目标转化为单一目标