统计学:误差

本文介绍了统计学中的误差和残差概念,强调了两者在估计总体参数时的区别,特别是在回归分析中的重要性,以及如何通过统计误差和残差的标准化方法进行量化。
摘要由CSDN通过智能技术生成

        统计学和最优化中,误差(error)和残差(residual)是两个相近但有区别的概念,二者均是统计样本中某一元素的观测值与其“真值”(未必可直接观测得到)之间的离差的度量。观察的误差是观测值与相关量(例如总体平均值)的真值之间的差值。残差是观测值与统计量的估计值(例如样本均值)之间的差值。这种区别在回归分析中至关重要,回归分析中,这些概念有时称为回归误差(regression errors)和回归残差(regression residuals),它们引出了学生化残差的概念。

        计量经济学中,误差也称为扰动(disturbances)。

简介

        假设有一系列取自单变量分布的观察结果,我们想要估计该分布的平均值。此时,误差是观测值与总体均值的偏差,而残差是观测值与样本均值的偏差。

        统计误差(statistical error)是观察值与其期望值的差异程度,而期望值基于随机选择统计单位的总体。例如,如果21岁男性的平均身高为1.75米,而随机选出的一名男性身高为1.80米,则“误差”为0.05米;如果随机选出男性人身高1.70米,则“误差”为-0.05 米。期望值是整个总体的均值,通常是无法观测的,因此统计误差也无从知晓。而残差(residual)是对无法观测的统计误差的可观测估计。在上述的男性身高的例子中,假设我们随机抽取n个人作为样本。样本均值可以很好地估计总体均值。此时:样本中每个人的身高与无法观测的总体均值之间的差值是统计误差,样本中每个人的身高与可观测的样本均值之间的差值是残差。注意,由于样本均值的定义,随机样本内的残差之和必然为零,因此残差必然不是相互独立的。而统计误差是独立的,它们在随机样本中的总和几乎肯定不为零。统计误差(尤其是正态分布的)的数值可以用标准分数(或“z分数”)来标准化,而残差可以用t统计量,或更一般的学生化残差来标准化。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值