数据特征处理

最新推荐文章于 2024-07-24 14:05:30 发布

jaeden_xu

最新推荐文章于 2024-07-24 14:05:30 发布

阅读量344

点赞数

分类专栏：数据分析挖掘文章标签：机器学习

本文链接：https://blog.csdn.net/qq_41807261/article/details/120495720

版权

数据分析挖掘专栏收录该内容

58 篇文章 36 订阅

订阅专栏

归一化和标准化的使用场景

如果对输出结果范围有要求，则用归一化
如果数据比较稳定，不存在极端的最大值和最小值，则可用归一化
如果数据存在异常值和最多噪声，则用标准化，这样可以通过中心化间接避免异常值和极端值的影响。
支持向量机、K近邻、主成分分析等模型都必须进行归一化或标准化操作。

标准化
标准化是依照特征矩阵的列处理数据，即通过求标准分数的方式，将特征转换为标准正态分布，并和整体样本分布相关。标准化需要计算特征的均值和方差

from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris
iris = load_iris()
StandardScaler().fit_transform(iris.data)

区间缩放法
区间缩放法利用两个最值（最大值和最小值）进行缩放

from sklearn.preprocessing import MinMaxScaler
from sklearn.datasets import load_iris
iris = load_iris()
MinMaxScaler().fit_transform(iris.data)

归一化
归一化是将样本的额特征值转换到同一量纲下，把数据映射到[0,1]或者[a,b]区间内，由于其仅由变化的极值决定，因此区间缩放法是归一化的一种
归一区间会改变数据的原始距离、分布和信息，但标准化一般不会。

from sklearn.preprocessing import Normalizer
from sklearn.datasets import load_iris
iris = load_iris()
Normalizer().fit_transform(iris.data)

定量特征二值化
定量特征二值化的核心在于设定一个阈值，大于阈值的赋值为1，小于阈值的赋值为0

from sklearn.preprocessing import Binarizer
Binarizer(threshold=3).fit_transform(iris.data)

定性特征哑编码OneHotEncoder
通过取值为0或1，反映某个变量的不同属性，目的是把原本不能定量处理的变量进行量化，从而评估定性因素对因变量的影响。

from sklearn.preprocessing import OneHotEncoder
OneHotEncoder(categories='auto').fit_transform(iris.target.reshape((-1,1)))

对数变换
对数变换能够缩小数据的绝对范围，取乘法操作相当于对数变换后的加法操作

from numpy import log1p
from sklearn.preprocessing import FunctionTransformer
from sklearn.datasets import load_iris

iris = load_iris()
iris = iris['data']

iris_log = FunctionTransformer(log1p).fit_transform(iris)
print(iris_log)

jaeden_xu

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数据特征处理

1标准化from sklearn.preprocessing import StandardScalerfrom sklearn.datasets import load_irisiris = load_iris()StandardScaler().fit_transform(iris.data)2区间缩放法from sklearn.preprocessing import MinMaxScalerMinMaxScaler().fit_transform(iris.data)3归一化f
复制链接

扫一扫

专栏目录