数据特征归一化和标准化

最新推荐文章于 2023-08-23 12:18:54 发布

.我心永恒_

最新推荐文章于 2023-08-23 12:18:54 发布

阅读量1.5k

点赞数 1

分类专栏：机器学习文章标签：机器学习归一化标准化

本文链接：https://blog.csdn.net/sinat_36618660/article/details/97933652

版权

特征归一化和标准化是为了消除量纲影响，确保不同特征在同一数量级上，提升分析和模型训练效果。常见的方法包括Min-Max Scaling和Z-Score Standardization。归一化能加速梯度下降过程，适用于线性回归、逻辑回归、SVM等模型，但对决策树模型影响不大。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

(一)为什么要进行归一化,标准化？

每个特征的数值差异大小会造成分析结果的偏向,例如:身高(m)与体重(kg),1.6m与1.8m的差距只有0.2m,而体重的差距可能达到100-50=50kg的差距,此时用体重去分类结果显而易见,也即此时体重对分析结果影响较大。
见下图：
在这里插入图片描述
从此图可以看出,身高相对体重失去决策能力,而体重却具有良好非线性去进行决策。所以说为了消除量纲造成的决策能力不同,我们需要进行特征归一化,标准化,使特征处于同一数量值之间,更好的利用多特征进行决策分析。

注：对数值类型的特征做归一化、标准化可以将所有特征对应的特征值统一到一个大致相同的特征区间

(二)两种方法:

1.线性函数归一化(Min-Max Scaling)

2.零均值标准化(Z-Score Standardization)
注：它会将所有样本对应特征X上的值映射到均值为0,标准差为1的分布上

(二)归一化,标准化的优势:
1.可以使各个特征的值处于大致相同的数值区间,便于多特征分析,而不会偏向某一特征差别较大的特征。
2.可以更快的通过梯度下降的方式得到最优解

(三)在实际应用中,哪些需要归一化(标准化)
1.首先,通过梯度下降法求解的模型肯定需要归一化,因为归一化后,各个特征的更新速度变得一致,也即更快通过梯度下降找到最优解。
2.使用梯度下降法求解的模型：线性回归、Logistic回归、SVM、前向神经网络、循环神经网络等
3.不适用于决策树模型,特征是否归一化不会改变信息增益或者gini增益(增益与labels有关)

最低0.47元/天解锁文章