2021-05-30

最新推荐文章于 2022-03-16 10:36:59 发布

qq_43064270

最新推荐文章于 2022-03-16 10:36:59 发布

阅读量94

点赞数

本文链接：https://blog.csdn.net/qq_43064270/article/details/117407655

版权

特征归一化

对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。
在学习速率相同的情况下，归一化后的特征容易更快地通过梯度下降找到最优解，收敛速度更快。
在实际应用中，通过梯度下降法求解的模型通常是需要归一化的。包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对于决策树模型则并不适用，决策树在进行节点分裂时主要依据数据集D关于特征x的信息增益比，而信息增益比跟特征是否经过归一化是无关的，因为归一化并不会改变样本在特征上的信息增益。

线性函数归一化（ Min-Max Scaling）：数据在[0,1]之间

min = np.amin(data)
max = np.amax(data)    
data = (data - min)/(max-min)

data = sklearn.preprocessing.minmax_scale (data)

min_max_scaler = sklearn.preprocessing.MinMaxScaler()
train_data = min_max_scaler.fit_transform(train_data)
test_data = min_max_scaler.fit_transform(test_data)
使用训练集中的参数（最大值和最小值）对测试集数据进行转换

零均值归一化（ Z-Score Normalization）: 数据都聚集在0附近，方差为1。

mu = np.mean(data,axis=0)
std = np.std(data,axis=0)
data = (data - mu)/std

data = sklearn.preprocessing.scale(data)

scaler = sklearn.preprocessing.StandardScaler().fit(train_data)
train_data = scaler.transform(train_data)
test_data = scaler.transform(test_data)
使用训练集中的参数（均值和方差）对测试集数据进行转换

正则化（Normalization）：将数据缩放到单位范数
对每个样本计算其p-范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的p-范数（l1-norm,l2-norm）等于1。主要应用于文本分类和聚类中。

data = sklearn.preprocessing.normalize(data, norm='l2')

normalizer = sklearn.preprocessing.Normalizer().fit(train_data)
train_data = normalizer.transform(train_data)
test _data = normalizer.transform(test _data)
使用训练集中的参数（p-范数）对测试集数据进行转换

qq_43064270

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-05-30

**特征归一化**对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。在学习速率相同的情况下，归一化后的特征容易更快地通过梯度下降找到最优解，收敛速度更快。在实际应用中，通过梯度下降法求解的模型通常是需要归一化的。包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对于决策树模型则并不适用，决策树在进行节点分裂时主要依据数据集D关于特征x的信息增益比，而信息增益比跟特征是否经过归一化是无关的，因为归一化并不会改变样本在特征上的信息增益。线性函数归一化（ Min-Max
复制链接

扫一扫