数据统计基础知识

误差是指观察值与真实值之间的差距,由于随机性而存在。偏差则衡量测量结果的精密度,是与理想值的偏离。残差是观察值与模型估计值的差,在回归分析中至关重要。方差描述预测值的离散程度,值越大表示数据分布越分散。这些概念在数据分析和机器学习中起到关键作用。
摘要由CSDN通过智能技术生成

误差(error)

观察值与真实值之间的差。我们任何一次测量都是有误差的,比如用一把米尺测量桌子的宽度,但是因为尺子的精度问题,导致并不能测出真实的宽度,再改用游标卡尺等等只能尽可能的缩小误差,但是无法避免误差。

经典测验理论(CTT)的基本假设是:X=T+E。观察值等于真实值加上误差,误差由于是随机分布且均值为0,所以可以用多次测量的观测值作为真实值。

偏差(Bias)

用误差衡量测量结果的准确度,用偏差衡量测量结果的精密度;误差是以真实值为标准,偏差是以多次测量结果的平均值为标准
误差与偏差的含义不同,必须加以区别。但是由于在一般情况下,真实值是不知道的(测量的目的就是为了测得真实值),因此处理实际问题时常常在尽量减小系统误差的前提下,把多次平行测量值当作真实值,把偏差当作误差。

残差(residual)

观察值与模型估计值之间的差。以回归分析为例,回归方程y=b0+b1x,当知道b0和b1时这就是一个真实的回归模型。比如y=2+3x。取一个数值(1,2),则模型估计值为y=2+3×1=5。残差为2-5=-3。因此,只要有一个确定的取值以及模型,则模型肯定有一个估计值,也就有一个残差了。对残差进行分析是回归分析的一个重要部分。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值