在统计和最优参数选取时,统计误差以及残差是两个紧密相关,但同时又极易混淆的概念.两者都是对"样本值偏离均值"的测量. 样本误差是指样本对母本(无法观察到的)均值及真实值的均值的偏离. 残差则是指样本和观察值(样本总体)或回归值(拟合)的差额. 拟合值是统计模型的拟合结果,是依据拟合模型得出的,应该是的值; 误差和残差的差异distinction在回归中尤其重要, 精细的残差即通常所说的学生化残差..(后一句不理解)
简单理解为:
误差:即观测值与真实值的偏离;
残差:观测值与拟合值的偏离.
误差与残差,这两个概念在某程度上具有很大的相似性,都是衡量不确定性的指标,可是两者又存在区别。 误差与测量有关,误差大小可以衡量测量的准确性,误差越大则表示测量越不准确。
误 差分为两类:系统误差与随机误差。其中,系统误差与测量方案有关,通过改进测量方案可以避免系统误差。随机误差与观测者,测量工具,被观测物体的性质有关,只能尽量减小,却不能避免。
残差――与预测有关,残差大小可以衡量预测的准确性。残差越大表示预测越不准确。残差与数据本身的分布特性,回归方程的选择有关。
误差: 所有不同样本集的均值的均值,与真实总体均值的偏离.由于真实总体均值通常无法获取或观测到,因此通常是假设总体为某一分布类型,则有N个估算的均值; 表征的是观测/测量的精确度;
误差大,由异常值引起.表明数据可能有严重的测量错误;或者所选模型不合适,;
残差: 某样本的均值与所有样本集均值的均值, 的偏离; 表征取样的合理性,即该样本是否具代表意义;
残差大,表明样本不具代表性,也有可能由特征值引起.
反正要看一个模型是否合适,看误差;要看所取样本是否合适,看残差;
一般在回归方程中残差服从均值为0的正态分布
回归方程:y=a+bx+ε
则E(ε)=0,D(ε)=σ^2