数据标准化/归一化normalization

最新推荐文章于 2024-08-13 07:17:34 发布

-柚子皮-

最新推荐文章于 2024-08-13 07:17:34 发布

阅读量10w+

点赞数 158

分类专栏： Math 机器学习文章标签：数据标准化数据归一化 normalization

本文链接：https://blog.csdn.net/pipisorry/article/details/52247379

版权

数据标准化（normalization）和归一化是数据分析中的关键步骤，目的是将数据缩放到特定区间，如[0,1]，以简化计算、提升模型收敛速度和精度。归一化的好处包括加快模型训练、增强不同特征的可比性和防止梯度爆炸。常见的方法包括min-max标准化、z-score标准化、log函数转换等。在机器学习中，某些模型如SVM和神经网络受益于数据归一化，而决策树等模型则通常不需要。数据标准化的实现可通过各种编程库，如Scikit-learn和Pandas。" 115171106,8569719,SpringBoot配置注入：@Value与配置文件详解,"['Spring框架', 'SpringBoot', '配置管理', '依赖注入']

摘要由CSDN通过智能技术生成

http://blog.csdn.net/pipisorry/article/details/52247379

这里主要讲连续型特征归一化的常用方法。

连续型特征还有一种处理方式是，先分桶/分箱（如等频/等距的分）[待写]进行离散化后再使用离散数据的处理方法。

离散数据处理参考[数据预处理：独热编码（One-Hot Encoding）]。

基础知识参考：

[均值、方差与协方差矩阵]

[矩阵论：向量范数和矩阵范数]

数据的标准化（normalization）和归一化

数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

目前数据标准化方法有多种，归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法，对系统的评价结果会产生不同的影响，然而不幸的是，在数据标准化方法的选择上，还没有通用的法则可以遵循。

其中最典型的就是数据的归一化处理，即将数据统一映射到[0,1]区间上。

归一化的目标

1 把数变为（0，1）之间的小数
主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速，应该归到数字信号处理范畴之内。
2 把有量纲表达式变为无量纲表达式
归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为纯量。比如，复数阻抗可以归一化书写：Z = R + jωL = R(1 + jωL/R) ，复数部分变成了纯数量了，没有量纲。
另外，微波之中也就是电路分析、信号系统、电磁波传输等，有很多运算都可以如此处理，既保证了运算的便捷，又能凸现出物理量的本质含义。