归一化和标准化

今天也不能熬夜

已于 2022-02-13 11:09:21 修改

阅读量497

点赞数

分类专栏：在b站学习机器学习的笔记文章标签：聚类机器学习算法

于 2022-02-13 11:02:27 首次发布

本文链接：https://blog.csdn.net/weixin_41149572/article/details/122906350

版权

在b站学习机器学习的笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文详细介绍了数据预处理中的两种重要方法——归一化和标准化，包括它们的概念、侧重点、计算公式以及各自的优缺点。归一化主要关注数值的统一，适用于小数据和固定数据的场景，而标准化则侧重于数据分布的归一，常用于距离度量和分类聚类算法。了解这两种方法的适用场景有助于选择合适的数据预处理策略，以优化后续的算法性能。

摘要由CSDN通过智能技术生成

$S_i=\frac{x_i}{\sum_j x_j}$

对比	归一化	标准化
概念	将数值规约到（0,1）或者是（-1,1）区间	将数据的分布规约在均值为0，标准差为1的分布上（近似高斯分布）
侧重点	数值的归一，丢失数据分布信息，丢失数据间距离信息，保留了权值	数据分布的归一，保留了数据之间的分布，丢失权值。（标准差大小代表了权重大小）
形式	$x_{new}=\frac{x-x_{min}}{x_{max}-x_{min}}$	$x_{new}=\frac{x-\mu}{\sigma}$
缺点	1. 丢失样本间距离信息 2. 鲁棒性差：受异常点影响较大	1. 丢失样本间权重信息
适合场景	1. 小数据、固定数据的时候使用 2. 在不涉及距离的度量，协方差计算，数据表不符合正态分布时 3. 进行多指标综合评价的时候	1.分类聚类算法中，需要用距离来度量相似性的时候； PCA技术进行降维的时候（大样本—稳定） 2.有超出取值范围的离散数据或者对最大只和最小值未知的数据
缩放方式	先最小值平移，后用最值差缩放	先均值平移，后用标准差缩放
目的	便于消除量纲，将各个指标的数据纳入到综合评价中	便于后续的梯度下降和激活函数对数据的处理（数据以0为中心左右分布）