先行知识——量纲、方差、标准差、均方差、均方误差的概念
量纲——量纲(dimensionh)是指物理量的基本属性。均方误差物理学的研究可定量地描述各种物理现象,描述中所采用的各类物理量之间有着密切的关系,即它们之间具有确定的函数关系。为了准确地描述这些关系,物理量可分为基本量和导出量。基本量是具有独立量纲的物理量,导出量是指其量纲可以表示为基本量量纲组合的物理量;一切导出量均可从基本量中导出,由此建立了整个物理量之间函数关系。这种函数关系通常称为量制。以给定量制中基本量量纲的幂的乘积表示某量量纲的表达式,称为量纲式或量纲积。它定性地表达了导出量与基本量的关系,对于基本量而言,其量纲为其自身。
量纲和单位的区别——量纲是表征物理量的性质(类别),如时间、长度、质量等;单位是表征物理量大小或数量的标准,如s、m、Kg等。同一个物理量的性质可以用不同的单位来表示,比如时间可以用国际单位制秒(s)来表示,也可以用分(min)、小时(h)等表示。还有就是单位不一定是表征物理量的,比如货币的单位:元。之所以会产生量纲和单位是等价的混淆,是因为,国际单位制规定中,规定了七个基本物理量的量纲及其对应的单位,如下图所示:
如上图所示,第一列表示是基本物理量量纲,第二列表示基本物理量的量纲符号,第三列表示基本物理量的单位(也就是物理量的度量标准)第四列表示基本物理量的单位符号。除了这七种基本物理量量纲,其他的量纲都是导出量纲,除了这其中基本物理量的单位,其他物理量单位都是导出单位。因此,量纲就是单位的说法并不严谨,量纲是一个更基本的概念,单位是对应量纲提出的,但是单位有更多的变换形式,比如1m/s=60m/min=3600m/h=3.6km/h,他们是不同的单位,但是量纲都是:长度(L)/时间(T)。
本部分内容参考百度百科等。
方差——方差
方差(variance)是在概率论和统计方差衡量随机变量或一组数据时对离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。
数学问题,用公式说话更加直观:
对于一组随机变量或者统计数据,其期望值我们由E(X)表示,即随机变量或统计数据的均值,然后将各个数据与均值的差的平方求和:
然后再对所得的平方和求期望即可得到方差D(X):
这个公式描述了随机变量或统计数据与其均值的偏离程度。在很多实际问题中,除了考虑均值的大小外,还要考虑方差的大小(即数据的分布情况),比如:一个射击运动员训练情况,不能只看平均环数,还要看每次射击环数的分布情况(也就是发挥的稳定性)。
标准差——标准差
标准差(Standard Deviation)是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
用公式描述为:
根号里的内容就是方差:
那么问题来了,既然有了方差来描述变量与均值的偏离程度,那又搞出来个标准差干什么呢?
通过上述两个公式可知,方差与我们要处理的数据的量纲是不一致的,虽然能很好的描述数据与均值的偏离程度,但是处理结果是不符合我们的直观思维的。
举个例子:一个班级里有60个学生,平均成绩是70分,标准差是9,方差是81,成绩服从正态分布,那么我们通过方差不能直观的确定班级学生与均值到底偏离了多少分,通过标准差我们就很直观的得到学生成绩分布在[61,79]范围的概率为0.6826,即约等于下图中的34.2%*2。
均方差——均方差
均方差,其实就是标准差。均方差=标准差
均方误差——均方误差
均方误差(mean squared error,均方误差是各数据偏离真实值的距离平方和的平均数,也即误差平方和的平均数,计算公式形式上接近方差,它的开方叫均方根误差,均方根误差才和标准差形式上接近),标准差是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。
从上面定义我们可以得到以下几点:
1、均方差就是标准差,标准差就是均方差
2、均方误差不同于均方差
3、均方误差是各数据偏离真实值的距离平方和的平均数
举个例子:我们要测量房间里的温度,很遗憾我们的温度计精度不高,所以就需要测量5次,得到一组数据[x1,x2,x3,x4,x5],假设温度的真实值是x,数据与真实值的误差E=x-xi 。
那么均方误差MSE=
总的来说,均方差是数据序列与均值的关系,而均方误差是数据序列与真实值之间的关系(但是两者量纲不同,均方误差与方差的量纲相同),所以我们只需要搞清楚真实值和均值之间的关系就行了。
本部分内容参考知乎文章。
在数据挖掘数据处理过程中,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
归一化 (Normalization)
归一化一般是将数据映射到指定的范围,用于去除不同维度数据的量纲以及量纲单位。常见的映射范围有 [0, 1] 和 [-1, 1] ,最常见的归一化方法就是 Min-Max 归一化:
其中X_max为样本数据的最大值,X_min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致X_max和X_min的变化,需要重新定义。
举个例子,我们判断一个人的身体状况是否健康,那么我们会采集人体的很多指标,比如说:身高、体重、红细胞数量、白细胞数量等。
一个人身高 180cm,体重 70kg,白细胞计数 7.50X10^9/L,etc.
衡量两个人的状况时,白细胞计数就会起到主导作用从而遮盖住其他的特征,归一化后就不会有这样的问题。
标准化 (Normalization)
通过标准化处理,最终得到均值为0,标准差为1的服从标准正态分布的数据。可以取消由于量纲不同、自身变异或者数值相差较大所引起的误差。
在这里我们需要强调一下英文翻译的问题,在 Udacity 字幕组中对此进行了探讨:
归一化和标准化的英文翻译是一致的,但是根据其用途(或公式)的不同去理解(或翻译)
下面我们将探讨最常见的标准化方法: Z-Score 标准化。
其中μ为所有样本数据的均值,σ为所有样本数据的标准差。
上图则是一个散点序列的标准化过程:原图->减去均值->除以标准差。
显而易见,变成了一个均值为 0 ,方差为 1 的分布,下图通过 Cost 函数让我们更好的理解标准化的作用。
机器学习的目标无非就是不断优化损失函数,使其值最小。在上图中, J(ω,b) 就是我们要优化的目标函数就是我们要优化的目标函数
我们不难看出,标准化后可以更加容易地得出最优参数 ω 和 b 以及计算出 J(ω,b) 的最小值,从而达到加速收敛的效果。
正则化 (Regularization)
正则化主要用于避免过拟合的产生和减少网络误差。
正则化一般具有如下形式:
其中,第 1 项是经验风险,第 2 项是正则项, λ≥0为调整两者之间关系的系数。
第 1 项的经验风险较小的模型可能较复杂(有多个非零参数),这时第 2 项的模型复杂度会较大。
常见的有正则项有 L1 正则 和 L2 正则 ,其中 L2 正则 的控制过拟合的效果比 L1 正则 的好。
正则化的作用是选择经验风险与模型复杂度同时较小的模型。
常见的有正则项有 L1 正则 和 L2 正则 以及 Dropout ,其中 L2 正则 的控制过拟合的效果比 L1 正则 的好。
Lp范数
为什么叫 L1 正则,有 L1、L2 正则 那么有没有 L3、L4 之类的呢?
首先我们补一补课, Lp 正则的 L 是指 Lp 范数,其定义为:
L0范数:(非零元素的个数)
L1范数: (每个元素绝对值之和)
L2范数:(欧氏距离)
Lp范数:
在机器学习中,若使用了 作为正则项,我们则说该机器学习任务引入了 Lp 正则项。
这部分参考了知乎文章。