ML中常用的归一化/标准化/正则化区别与联系

最新推荐文章于 2024-07-01 14:20:03 发布

Dream_Runner_zsy

最新推荐文章于 2024-07-01 14:20:03 发布

阅读量1.4k

点赞数 3

分类专栏：数学学习

本文链接：https://blog.csdn.net/the_dream_runner/article/details/98624743

版权

数学学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

先行知识——量纲、方差、标准差、均方差、均方误差的概念

量纲——量纲（dimensionh）是指物理量的基本属性。均方误差物理学的研究可定量地描述各种物理现象，描述中所采用的各类物理量之间有着密切的关系，即它们之间具有确定的函数关系。为了准确地描述这些关系，物理量可分为基本量和导出量。基本量是具有独立量纲的物理量，导出量是指其量纲可以表示为基本量量纲组合的物理量；一切导出量均可从基本量中导出，由此建立了整个物理量之间函数关系。这种函数关系通常称为量制。以给定量制中基本量量纲的幂的乘积表示某量量纲的表达式，称为量纲式或量纲积。它定性地表达了导出量与基本量的关系，对于基本量而言，其量纲为其自身。

量纲和单位的区别——量纲是表征物理量的性质（类别），如时间、长度、质量等；单位是表征物理量大小或数量的标准，如s、m、Kg等。同一个物理量的性质可以用不同的单位来表示，比如时间可以用国际单位制秒(s)来表示，也可以用分(min)、小时(h)等表示。还有就是单位不一定是表征物理量的，比如货币的单位：元。之所以会产生量纲和单位是等价的混淆，是因为，国际单位制规定中，规定了七个基本物理量的量纲及其对应的单位，如下图所示：

如上图所示，第一列表示是基本物理量量纲，第二列表示基本物理量的量纲符号，第三列表示基本物理量的单位（也就是物理量的度量标准）第四列表示基本物理量的单位符号。除了这七种基本物理量量纲，其他的量纲都是导出量纲，除了这其中基本物理量的单位，其他物理量单位都是导出单位。因此，量纲就是单位的说法并不严谨，量纲是一个更基本的概念，单位是对应量纲提出的，但是单位有更多的变换形式，比如1m/s=60m/min=3600m/h=3.6km/h，他们是不同的单位，但是量纲都是：长度(L)/时间(T)。

本部分内容参考百度百科等。

方差——方差

方差(variance)是在概率论和统计方差衡量随机变量或一组数据时对离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中，研究方差即偏离程度有着重要意义。

数学问题，用公式说话更加直观：

对于一组随机变量或者统计数据，其期望值我们由E(X)表示，即随机变量或统计数据的均值，然后将各个数据与均值的差的平方求和：

然后再对所得的平方和求期望即可得到方差D(X)：

这个公式描述了随机变量或统计数据与其均值的偏离程度。在很多实际问题中，除了考虑均值的大小外，还要考虑方差的大小(即数据的分布情况)，比如：一个射击运动员训练情况，不能只看平均环数，还要看每次射击环数的分布情况(也就是发挥的稳定性)。

标准差——标准差

标准差(Standard Deviation)是离均差平方的算术平均数的平方根，用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据，标准差未必相同。

用公式描述为：

根号里的内容就是方差：

那么问题来了，既然有了方差来描述变量与均值的偏离程度，那又搞出来个标准差干什么呢？

通过上述两个公式可知，方差与我们要处理的数据的量纲是不一致的，虽然能很好的描述数据与均值的偏离程度，但是处理结果是不符合我们的直观思维的。
举个例子：一个班级里有60个学生，平均成绩是70分，标准差是9，方差是81，成绩服从正态分布，那么我们通过方差不能直观的确定班级学生与均值到底偏离了多少分，通过标准差我们就很直观的得到学生成绩分布在[61,79]范围的概率为0.6826，即约等于下图中的34.2%*2。