统计学：误差

最新推荐文章于 2024-10-19 11:04:31 发布

数分小白.py

最新推荐文章于 2024-10-19 11:04:31 发布

阅读量410

点赞数 8

文章标签：机器学习数据分析

本文链接：https://blog.csdn.net/2301_79675943/article/details/137202709

版权

本文介绍了统计学中的误差和残差概念，强调了两者在估计总体参数时的区别，特别是在回归分析中的重要性，以及如何通过统计误差和残差的标准化方法进行量化。

摘要由CSDN通过智能技术生成

统计学和最优化中，误差（error）和残差（residual）是两个相近但有区别的概念，二者均是统计样本中某一元素的观测值与其“真值”（未必可直接观测得到）之间的离差的度量。观察的误差是观测值与相关量（例如总体平均值）的真值之间的差值。残差是观测值与统计量的估计值（例如样本均值）之间的差值。这种区别在回归分析中至关重要，回归分析中，这些概念有时称为回归误差（regression errors）和回归残差（regression residuals），它们引出了学生化残差的概念。

计量经济学中，误差也称为扰动（disturbances）。

简介

假设有一系列取自单变量分布的观察结果，我们想要估计该分布的平均值。此时，误差是观测值与总体均值的偏差，而残差是观测值与样本均值的偏差。

统计误差（statistical error）是观察值与其期望值的差异程度，而期望值基于随机选择统计单位的总体。例如，如果21岁男性的平均身高为1.75米，而随机选出的一名男性身高为1.80米，则“误差”为0.05米；如果随机选出男性人身高1.70米，则“误差”为-0.05 米。期望值是整个总体的均值，通常是无法观测的，因此统计误差也无从知晓。而残差（residual）是对无法观测的统计误差的可观测估计。在上述的男性身高的例子中，假设我们随机抽取n个人作为样本。样本均值可以很好地估计总体均值。此时：样本中每个人的身高与无法观测的总体均值之间的差值是统计误差，样本中每个人的身高与可观测的样本均值之间的差值是残差。注意，由于样本均值的定义，随机样本内的残差之和必然为零，因此残差必然不是相互独立的。而统计误差是独立的，它们在随机样本中的总和几乎肯定不为零。统计误差（尤其是正态分布的）的数值可以用标准分数（或“z分数”）来标准化，而残差可以用t统计量，或更一般的学生化残差来标准化。