机器学习心路历程（一）

最新推荐文章于 2024-06-24 08:42:16 发布

云码农

最新推荐文章于 2024-06-24 08:42:16 发布

阅读量518

点赞数

本文链接：https://blog.csdn.net/qq_51436818/article/details/121457099

版权

第一步、数据预处理（使用sklearn preprocessing）

拿到数据后，首先要了解数据的特征，确定数据离散与否；
检查数据是否缺失，对缺失的数据要使用恰当的方法对数据插值，从而是数据集完整；
特别地，如果数据是连续的，要进行标准化，使得均值为0，方差为1；
对类别型的特征进行one-hot编码；
将需要转换成类别型数据的连续型数据进行二值化；
为防止过拟合或者其他原因，选择是否要将数据进行正则化；
在对数据进行初探之后发现效果不佳，可以尝试使用多项式方法，寻找非线性的关系；
根据实际问题分析是否需要对特征进行相应的函数转换。

数据预处理通常使用sklearn preprocesing来处理

通常两种 1、标准化处理数据 2、将数据挟制在一定范围内

First 标准化

适用情况，对于方差较大的数据集则会主导目标函数从而使参数估计器无法正确地去学习其他特征，这个时候需要数据标准

原理：均值0 方差1符合正态分布

scale()方法，适用不区分训练集与测试集前一次性变换

#scale方法的使用
#方法一
from sklearn import preprocessing
scale_data = preprocessing.scale(X)
#方法二
from sklearn.preprocessing import scale
scale_data = scale(X)
scale_data

#显示每列的均值和方差
scale_data.mean(axis=0)
scale_data.std(axis=0)

#StandardScaler()方法
from sklearn import preprocessing

stand_means = preprocessing.StandardScaler()
X_trans = stand_means.fit_transform(X)
Y_trans = stand_means.transform(Y)

print("X_trans如下:")
X_trans
print('-'*60)
print("Y_trans如下:")
Y_trans

Second 放缩

适用情况数据集的标准差非常非常小，有时数据中有很多很多零（稀疏数据）需要保存住０元素，这样处理可对方差非常小的属性增强其稳定性，也可维持稀疏矩阵中为0的条目，一般情况下是缩放到在[0,1]之间（MinMaxScaler），或者是特征中绝对值最大的那个数为1，其他数以此维标准分布在[[-1，1]之间（MaxAbsScaler）。

云码农

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习心路历程（一）

第一步、数据预处理（使用sklearn preprocessing）拿到数据后，首先要了解数据的特征，确定数据离散与否；检查数据是否缺失，对缺失的数据要使用恰当的方法对数据插值，从而是数据集完整；特别地，如果数据是连续的，要进行标准化，使得均值为0，方差为1；对类别型的特征进行one-hot编码；将需要转换成类别型数据的连续型数据进行二值化；为防止过拟合或者其他原因，选择是否要将数据进行正则化；在对数据进行初探之后发现效果不佳，可以尝试使用多项式方法，寻找非线性的关系；根据实际问题分析是否
复制链接

扫一扫