学数学模型时,盯着这两个定义看了半天,形式相似又较为不同,定义和传递出的信息也是不一样,觉得有意思,写写笔记。话不多说,先上形式:
标准差:
其中, 为一组数据的真值, 为这组数据的平均值,也就是 , 而 即为方差,即标准差的平方为方差,方差的开平方为标准差。
再来说说他们的含义:
百度说:
标准差,又称均方差,是离均差平方的算术平均数的平方根,用σ表示。在概率统计中最常使用作为统计分布程度上的测量。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。
方差,不仅仅表达了样本偏离均值的程度,更是揭示了样本内部彼此波动的程度,也可以理解为方差代表了样本彼此波动的期望。
再加上对”平均“的理解:即一组数据的平均水平 (注意,平均数受极端影响较大,如极大或极小数据)
我们大抵可以根据这个公式的形式推测 :累计每个样本与平均水平的误差和,使用平方放大误差,并使波动向一个方向累加。平均后得到方差。要知道,若样本数据中存在极端数据,那么经过平方后必然显著。
所以,我们常常使用方差与标准差来揭示样本与均值的离散程度,并且,我还认为方差可以用来估计一组数据是否适合使用平均数这个指标。
好了,该到均方根误差(RMSE)了
公式如右:
其中, 为观测样本值,或可理解成预测值,而 为样本真值。
可见,这个公式与标准差公式十分相似,形式几乎一摸一样!
但需注意的是:标准差中公式的数据,全部都是“平等”的关系!怎么解释这个平等呢, 就从反面的不平等来说吧: 与 就是不平等的关系,因为他们不是一伙的,一个是观测值,一个是真值!
下面再来看看百度对于均方差根误差的解释:
均方根误差是预测值与真实值偏差的平方与观测次数n比值的平方根,在实际测量中,观测次数n总是有限的,真值只能用最可信赖(最佳)值来代替。 标准误差 对一组测量中的特大或特小误差反映非常敏感,所以,标准误差能够很好地反映出测量的精密度。这正是标准误差在工程测量中广泛被采用的原因。因此,标准差是用来衡量一组数自身的离散程度,而均方根误差是用来衡量观测值同真值之间的偏差,它们的研究对象和研究目的不同,但是计算过程类似
所以,我们可以总结:
“均方根误差”强调的是“误差”,是“观测值”或者说“预测值”与“真值”间的误差,
而均方根则是一组平等数据的内部属性。
故此,我们常用“均方根”来描述一组样本数据的内部波动水平,并使用“均方根的平方” :“方差”,来检测是否存在某些极端数据。 而均方根误差,则常用以检测拟合效果,或根据最小化此指标及其相关指标来进行拟合,这就是最小二乘法。
链接下文以飨读者: