sklearn数据预处理（二）非线性转换

最新推荐文章于 2023-11-09 16:00:39 发布

Rich Dad

最新推荐文章于 2023-11-09 16:00:39 发布

阅读量1w

点赞数 4

文章标签： python 机器学习大数据非线性转换 sklearn

I love 段奥娟

本文链接：https://blog.csdn.net/qq_44745905/article/details/117535895

版权

非线性转换在数据预处理中扮演重要角色，尤其当特征分布不符合正态分布时。本文介绍了如何使用sklearn库将数据映射到均匀分布和高斯分布，以改善机器学习算法的性能。均匀分布通过将数据缩放到[0, 1]区间，不受异常值影响。高斯分布转换则有助于稳定方差和减小偏差，可以使用Box-Cox或Yeo-Johnson方法实现。" 117072914,10551748,C语言事业单位笔试题库及答案解析,"['C语言', '事业单位笔试', '计算机基础知识']

摘要由CSDN通过智能技术生成

时间煮雨
@R星校长

第2关：非线性转换

为什么要非线性转换。
映射到均匀分布。
映射到高斯分布。

为什么要非线性转换

在上一关中已经提到，对于大多数数据挖掘算法来说，如果特征不服从或者近似服从标准正态分布（即，零均值、单位标准差的正态分布）的话，算法的表现会大打折扣。非线性转换就是将我们的特征映射到均匀分布或者高斯分布(即正态分布)。

映射到均匀分布

相比线性缩放，该方法不受异常值影响，它将数据映射到了零到一的均匀分布上，将最大的数映射为1，最小的数映射为0。其它的数按从小到大的顺序均匀分布在0到1之间，如有相同的数则取平均值，如数据为np.array([[1],[2],[3],[4],[5]])则经过转换为：np.array([[0],[0.25],[0.5],[0.75],[1]])，数据为np.array([[1],[2],[9],[10],[2]])则经过转换为：np.array([[0],[0.375],[0.75],[1.0],[0.375]])。第二个例子具体过程如下图：

在这里插入图片描述

在sklearn中使用QuantileTransformer方法实现，用法如下：

from sklearn.preprocessing import QuantileTransformer
import numpy as np

data = np.array([[1],[2],[3],[4],[5]])
quantile_transformer = QuantileTransformer(random_state=666)
data = quantile_transformer.fit_transform(data)

>>>data
array([[0.<