常用的数据预处理方法

本文详细介绍了Python机器学习中常用的数据预处理方法,包括标准化、最小-最大规范化、异常值处理、稀疏数据缩放、规范化、特征二值化、类别特征编码、标签编码和标签二值化,以及生成多项式特征。这些方法对于提高模型性能至关重要,特别是对于处理数值型和类别型数据时。
摘要由CSDN通过智能技术生成

以下是基于Python_sklearn来实现的:

No1.标准化(Standardization or Mean Removal and Variance Scaling)
变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减去均值,除以标准差。

>>> from sklearn import preprocessing 
>>> X=[[1.,-1.,2.],
       [2.,0.,0.],
       [0.,1.,-1.]]
>>> X_scaled = preprocessing.scale(X)
>>> X_scaled
array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])     

scale处理之后为零均值和单位方差:

>>> X_scaled.mean(axis=0)
array([ 0.,  0.,  0.])
>>> X_scaled.std(axis=0)
array([ 1.,  1.,  1.])  

同样我们也可以通过preprocessing模块提供的StandardScaler 工具类来实现这个功能:

>>> scaler = preprocessing.StandardScaler().fit(X)
>>> scaler
StandardScaler(copy=True, with_mean=True, with_std=True)
>>> scaler.mean_
array([ 1.        ,  0.        ,  0.33333333])
>>> scaler.std_
array([ 0.81649658,  0.81649658,  1.24721913])
>>> scaler.transform(X)
array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

简单来说,我们一般会把train和test集放在一起做标准化,或者在train集上做标准化后,用同样的标准化器去标准化test集,此时可以用scaler :

>>> scaler = sklearn.preprocessing.StandardScaler().fit(train)
>>> scaler.transform(train)
>>> scaler.transform(test)

No2.最小-最大规范化(Scaling features to a range&#x

人体解析任务需要对图像进行预处理,以便为算法提供更好的输入数据。以下是人体解析常用数据预处理方法: 1. 图像尺寸调整:首先,通常会将图像的尺寸进行调整,使其适应算法的输入要求。可以将图像缩放为固定的尺寸,如256x256或512x512,以便于神经网络的处理。 2. 数据增强:数据增强是一种常用的预处理方法,通过对图像进行一系列的变换和扩充,增加数据集的多样性和数量。常见的数据增强操作包括旋转、翻转、平移、缩放、随机裁剪等。 3. 归一化:归一化是将图像的像素值进行标准化处理,使其具有统一的范围和分布。常见的归一化方法是将像素值转换为0到1之间的浮点数,或者将其减去均值并除以标准差。 4. 图像裁剪:在人体解析任务中,有时只需要对感兴趣的区域进行分析。因此,可以通过裁剪图像来仅保留包含人体的区域,从而减少计算量并提高算法的效率。 5. 数据平衡:在一些数据集中,不同类别的样本数量可能存在不平衡。为了避免算法对少数类别的偏好,可以通过欠采样、过采样或类别权重调整等方法来平衡数据集中不同类别的样本数量。 这些数据预处理方法可以提高人体解析算法的稳定性、准确性和鲁棒性。根据具体任务和数据集的特点,可以选择适当的预处理方法或者结合多种方法进行处理。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值