sklearn学习笔记（2）——特征预处理归一化和标准化

最新推荐文章于 2023-08-15 23:41:35 发布

卞亚超

最新推荐文章于 2023-08-15 23:41:35 发布

阅读量944

点赞数 1

分类专栏：机器学习-数据分析文章标签：机器学习大数据 python

本文链接：https://blog.csdn.net/bnever/article/details/105588814

版权

机器学习-数据分析专栏收录该内容

16 篇文章 2 订阅

订阅专栏

数据的特征预处理

特征处理：通过特定的统计方法（数学方法）将数据转换成算法要求的数据

特征处理的方法

数值型数据：归一化、标准化、缺失值

类别型数据：one-hot编码

时间类型：时间的切分

sklearn特征处理API：sklearn.preprocessing

归一化特点：通过对原始数据进行变换，把数据映射到（默认[0, 1]）之间

归一化API：sklearn.preprocessing.MinMaxScaler

from sklearn.preprocessing import MinMaxScaler
def min_max():
    """
    对数据进行归一化
    :return: None
    """
    # feature_range=(2, 3) 指定范围，默认feature_range=(0, 1)
    mm = MinMaxScaler(feature_range=(2, 3))
    data = mm.fit_transform(
        [
            [90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]
        ]
    )
    print(data)

将数据归一化到(2, 3)之间

归一化总结：注意在特定场景下最大值和最小值是变化的，另外，最大值和最小值非常容易受异常点影响，所以这种方法鲁棒性较差，只适合传统精确小数据场景。

标准化特点：通过对原始数据进行变换，把数据变换到均值为0，方差为1范围内

标准化API：sklearn.preprocessing.StandardScaler

from sklearn.preprocessing import StandardScaler

def standard():
    """
    对数据进行标准化
    :return: None
    """
    sta = StandardScaler()
    data = sta.fit_transform(
        [
            [1., -1., 3.], [2., 4., 2.], [4., 6., -1.]
        ]
    )
    print(data)

标准化总结：在已有样本足够多的情况下比较稳定，适合现代嘈杂大数据场景

缺失值处理方法：

删除：如果缺失值达到一定比例，则删除整行或整列

插补：可以通过缺失值每行或者每列的平均值、中位数来填充

缺失值API：sklearn.preprocessing.Imputer

但是现在新版本的API应该是:from sklearn.impute import SimpleImputer，用法差不多

from sklearn.impute import SimpleImputer

def imputer():
    """
    处理缺失值
    :return:
    """
    # NaN, nan
    # 列：0 , 行：1
    # from sklearn.preprocessing import Imputer
    # im = Imputer(missing_values='NaN', strategy='mean', axis=0)
    # data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6]])

    # 参数默认strategy='mean'填充平均值, strategy='most_frequent'填充最小值
    im = SimpleImputer(strategy='most_frequent')
    data = im.fit_transform(
        [
            [1, np.nan], [np.nan, 3], [7, 6]
        ]
    )
    print(data)

卞亚超

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
sklearn学习笔记（2）——特征预处理归一化和标准化

数据的特征预处理特征处理：通过特定的统计方法（数学方法）将数据转换成算法要求的数据特征处理的方法数值型数据：归一化、标准化、缺失值类别型数据：one-hot编码时间类型：时间的切分sklearn特征处理API：sklearn.preprocessing归一化特点：通过对原始数据进行变换，把数据映射到（默认[0, 1]）之间归一化API：sklearn.prepr...
复制链接

扫一扫