深度学习算法基础----数据特征预处理，数据降维

最新推荐文章于 2024-04-24 22:46:10 发布

zrx1236

最新推荐文章于 2024-04-24 22:46:10 发布

阅读量1.4k

点赞数 2

本文链接：https://blog.csdn.net/sinat_41901394/article/details/109316374

版权

数据特征预处理

图片：

特征的预处理：对数据进行处理

缺失值：

预处理的两种方式：
在这里插入图片描述
数据的特征预处理：

特征处理的方法

特征预处理是什么：
通过特定的统计方法（数学方法）将数据转化成算法要求的数据。

数值型数据处理方法：

标准缩放：
1.归一化
2.标准化
3.缺失值

**类别型数据：**one-hot编码
时间类型：时间的切分

sklearn特征处理

sklearn特征处理API: sklearn.preprocessing

归一化

特点： 通过对原始数据进行变换把数据进行变换，把数据映射到（默认为[0,1]）之间
在这里插入图片描述
注：对于每一列，max为一列的最大值，min为一列的最小值，那么X为最终结果，mx，mi分别为指定区间默认mx为1，mi为0

举个例子：（怎么算的）
在这里插入图片描述
MinMaxScaler语法

MinMaxScaler(feature_range=(0,1)...)
#每个特征缩放到给定范围（默认[0,1]）

MinMaxScaler.fit_transform(X)
#X:numpy array格式的数据[n_samples,n_features]
#返回值：转换后的形状相同的array

归一化步骤：
1.实例化MinMaxScaler
2.通过fit_transform转换
实例化：

from sklearn.preprocessing import MinMaxScaler, StandardScaler

def mm():
    """
    归一化处理
    :return: NOne
    """
    mm = MinMaxScaler()#先不指定缩放范围

    data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])

    print(data)

    return None

if __name__ == "__main__":
    mm()

归一化案例：
三个特征同等重要的时候：进行归一化
目的：使得某一个特征对最终结果不会造成更大影响
**如果数据中异常点比较多，会有什么影响？
**如果有异常点，最大值最小值会被改变，会导致计算结果出现偏差。
归一化总结：注意在特定场景下最大值最小值是变化的，另外最大值与最小值非常容易受异常点的影响，所以这种方法鲁棒性较差，只适合传统精确小数据场景。

异常点示意图：在这里插入图片描述

标准化

特点：通过对原始数据进行变换把数据变换到均值为0，标准差为1范围内。
在这里插入图片描述
注：作用于每一列，mean为平均值，σ为标准差，var为方差，
其中：方差（考量数据的稳定性）

举个例子（怎么求的）

结合标准化和归一化

对于归一化来说： 如果出现了异常点，影响了最大值和最小值，那么结果显然会发生改变。
对于标准化来说： 如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，从而方差改变较小。

sklearn特征化API：scikit-learn.preprocessing.StandardScaler

StandardScaler语法：

StandardScaler(...)

最低0.47元/天解锁文章

zrx1236

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
深度学习算法基础----数据特征预处理，数据降维

目录数据特征预处理特征处理的方法sklearn特征处理归一化标准化结合标准化和归一化缺失值处理问题及解决：2.imputer数据特征预处理图片：特征的预处理：对数据进行处理缺失值：预处理的两种方式：数据的特征预处理：特征处理的方法特征预处理是什么：通过特定的统计方法（数学方法）将数据转化成算法要求的数据。数值型数据处理方法：标准缩放：1.归一化2.标准化3.缺失值**类别型数据：**one-hot编码时间类型：时间的切分sklearn特征处理sklearn特征处理API
复制链接

扫一扫