模型选择、拟合以及常见优化问题

最新推荐文章于 2022-07-31 09:20:36 发布

调包调参侠

最新推荐文章于 2022-07-31 09:20:36 发布

阅读量544

点赞数 1

分类专栏：深度学习理论文章标签：算法深度学习机器学习人工智能神经网络

本文链接：https://blog.csdn.net/Andre_Jan/article/details/123932579

版权

训练误差（training error）是指，模型在训练数据集上计算得到的误差。
泛化误差（generalization error）：模型在新数据上的误差
例：根据模考成绩来预测未来考试分数
- 在过去考试中表现很好（训练误差）不代表未来考试一定会好（泛化误差）
- 学生A通过背书在模考中拿到好成绩
- 学生B知道答案后面的原因

在没有足够多数据时使用（非大数据集）
算法：
- 将训练数据分割成k块
- For i = 1， …， k
  - 使用第 i 块作为验证数据集，其余作为训练数据集
  - 报告K个验证集误差的平均
常用：K=5或10 ，相当于将数据训练K次，然后求得K的平均误差
可以用于确定超参数，取其中均值效果较好的，也可用随机森林将进行预测选择

难以在不同的种类算法之间比较
- 例如树模型和神经网络
给定一个模型种类，将有两个主要因素
- 参数的个数
  - （d+1：d个输入的权重，加1个偏差）
  - （ (d+1)m+(m+1)k：m层个d+1，加上(m+1)*输出k ）
- 参数值的选择范围

使用均方范数作为硬性限制
- 通过限制参数值的选择范围来控制模型容量
  - min l(w,b) ，受限于 $w ||^2 ≤ θ$
- 通常不限制偏移b (限不限制都差不多)
- 小的θ意味着更强的正则项（限制条件）
使用均方范数作为柔性限制
- 对于每个θ，都可以找到 λ 使得之前的目标函数等价于： $min\ l(w,b)+\frac{λ}{2}||w||^2$
  - 可以通过拉格朗日乘子来证明
- 超参数λ控制了正则项的重要程度
  - λ = 0：无作用
  - λ → ∞，最优解 w*→0
- 对损失的影响
  - L2正则项会对大数值的权值进行乘法，估计权值分散，将所有特征运用起来
  - 惩罚项就是为了限制参数的取值范围，加入惩罚项会对最优解产生影响
  - 正则项就是防止损失函数最优导致过拟合
  - 分析如下
    - 绿色圆是l，橙色圆是惩罚项
    - l2损失在原点处的拉力会小于在曲线上方的拉力 =》也就是梯度大小
    - 因此惩罚对于 $\widetilde W*$ 的拉力会大于W *，而W再往橙色靠，惩罚项弥补不了损失项，因此 W * 在惩罚和损失的情况最优
参数更新法则
- 计算梯度
  - $\large \frac{∂}{∂w}(\mathcal l(w,b)+\frac{λ}{2}||w||^2) = \frac{∂l(w,b)}{∂w} + λw$
- 时间 t 更新参数 $\large w_{t+1}= w_t-\eta\frac{∂}{∂w_t}$