偏差与方差理论

偏差与方差理论

  1. 偏差-方差的权衡:
    E ( y 0 − f ^ ( x 0 ) ) 2 = Var ⁡ ( f ^ ( x 0 ) ) + [ Bias ⁡ ( f ^ ( x 0 ) ) ] 2 + Var ⁡ ( ε ) E\left(y_{0}-\hat{f}\left(x_{0}\right)\right)^{2}=\operatorname{Var}\left(\hat{f}\left(x_{0}\right)\right)+\left[\operatorname{Bias}\left(\hat{f}\left(x_{0}\right)\right)\right]^{2}+\operatorname{Var}(\varepsilon) E(y0f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε)

    • 测试均方误差的期望值可以分解为 f ^ ( x 0 ) \hat{f}(x_0) f^(x0)的方差、 f ^ ( x 0 ) \hat{f}(x_0) f^(x0)的偏差平方和误差项 ϵ \epsilon ϵ的方差

    • 测试均方误差的期望不可能会低于误差的方差

      Var ⁡ ( ε ) \operatorname{Var}(\varepsilon) Var(ε)为建模任务的难度,不可约误差

    • 模型复杂度与模型的方差正相关,与模型的偏差负相关

    • 模型复杂度引起的误差称为偏差(Bias),提高泛化能力则需要使得偏差变小

    • 偏差度量单个模型的学习能力,方差度量同一个模型在不同数据集的稳定性

    • 泛化性能是由学习算法的能力(偏差)、数据的充分性(方差)和学习任务本身难度(不可改变)共同决定的。

  2. 特征提取:

    • 测试误差的估计:直接估计(交叉验证)、间接估计(训练误差修正)

      模型越复杂,训练误差越小,测试误差会先增后减

      先过拟合,再加入特征个数的惩罚

    • 从p个特征中选择m个特征,使得对应的模型的测试误差的估计最小。对应的方法有:

      • 最优子集选择:

        (i) 记不含任何特征的模型为 M 0 M_0 M0,计算这个 M 0 M_0 M0的测试误差。

        (ii) 在 M 0 M_0 M0基础上增加一个变量,计算p个模型的RSS,选择RSS最小的模型记作 M 1 M_1 M1,并计算该模型 M 1 M_1 M1的测试误差。

        (iii) 再增加变量,计算p-1个模型的RSS,并选择RSS最小的模型记作 M 2 M_2 M2,并计算该模型 M 2 M_2 M2的测试误差。

        (iv) 重复以上过程知道拟合的模型有p个特征为止,并选择p+1个模型 { M 0 , M 1 , . . . , M p } \{M_0,M_1,...,M_p \} {M0,M1,...,Mp}中测试误差最小的模型作为最优模型。

      • 向前逐步选择:

        (i) 记不含任何特征的模型为 M 0 M_0 M0,计算这个 M 0 M_0 M0的测试误差。

        (ii) 在 M 0 M_0 M0基础上增加一个变量,计算p个模型的RSS,选择RSS最小的模型记作 M 1 M_1 M1,并计算该模型 M 1 M_1 M1的测试误差。

        (iii) 在最小的RSS模型下继续增加一个变量,选择RSS最小的模型记作 M 2 M_2 M2,并计算该模型 M 2 M_2 M2的测试误差。

        (iv) 以此类推,重复以上过程知道拟合的模型有p个特征为止,并选择p+1个模型 { M 0 , M 1 , . . . , M p } \{M_0,M_1,...,M_p \} {M0,M1,...,Mp}中测试误差最小的模型作为最优模型。

作业

  • 请用一个具体的案例解释什么是偏差和方差

    • 偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据.

    • 方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散.

  • 偏差与方差和误差之间的关系

    • 泛化误差可分解为偏差、方差和噪声之和。
    • 偏差度量了学习算法的期望预测与真实效果的偏离程度,即刻画了学习算法本身的拟合能力;方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;噪声则表达了当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。
  • 训练误差与测试误差之间的联系和区别,如何估计测试误差

    • 训练误差与测试误差都是模型对数据拟合能力的刻画, 但是训练误差刻画的是模型对于训练数据的拟合能力, 测试误差刻画的是模型对测试数据的拟合能力
    • 训练误差修正(间接估计)与交叉验证(直接估计)本教程讲述的三种模型简化的方法之间有什么异同点
  • 岭回归和lasso回归的异同点

    • 相同: 都可以用来解决标准线性回归的过拟合问题。
    • 不同: lasso 可以用来做 feature selection,而 ridge 不行。或者说,lasso 更容易使得权重变为 0,而 ridge 更容易使得权重接近 0。 从贝叶斯角度看,lasso(L1 正则)等价于参数 w 的先验概率分布满足拉普拉斯分布,而 ridge(L2 正则)等价于参数 w 的先验概率分布满足高斯分布
  • 如果使用pca降维前是一个三维的椭球,那么把该图形降维到二维是一个什么样的图形

    • a=b>c时为圆形
    • 其他情况时为椭圆形
  • 本教程讲述的三种模型简化的方法之间有什么异同点

    • 最优子集
    • 压缩估计
    • 降维
    • 模型的复杂来源于特征数的多少, 而最优子集和降维都是降低特征数来达到简化模型, 但是降维是创建新的特征,最优子集是选择部分特征. 压缩估计是不改变输入特征数量的情况下, 使用惩罚项约束参数, 使得参数不关注或降低对某些特征的关注
  • 尝试使用sklearn,对一组数据先进行特征的简化,在使用回归模型,最后使用网格搜索调参,观察三种方法的优劣

参考资料

  • https://www.bilibili.com/video/BV1Mb4y1o7ck?p=3&spm_id_from=pageDriver
  • https://github.com/datawhalechina/ensemble-learning
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值