56.1 参数和超参数的区别
- 区分两者最大的一点就是是否通过数据来进行调整,模型参数通常是有数据来驱动调整,超参数则不需要数据来驱动,而是在训练前或者训练中人为的进行调整的参数
- 例如卷积核的具体核参数就是指模型参数,这是有数据驱动的。而学习率则是人为来进行调整的超参数
- 这里需要注意的是,通常情况下卷积核数量、卷积核尺寸这些也是超参数,注意与卷积核的核参数区分。
56.2 神经网络中包含哪些超参数
- 通常可以将超参数分为三类:
- 网络参数:可指网络层与层之间的交互方式(相加、相乘或者串接等)、卷积核数量和卷积核尺寸、网络层数(也称深度)和激活函数等。
- 优化参数:一般指学习率(learning rate)、批样本数量(batch size)、不同优化器的参数以及部分损失函数的可调参数。
- 正则化:权重衰减系数,丢弃法比率(dropout)
56.3 为什么要进行超参数调优
- 本质上,这是模型优化寻找最优解和正则项之间的关系
- 网络模型优化调整的目的是为了寻找到全局最优解(或者相比更好的局部最优解),而正则项又希望模型尽量拟合到最优
- 两者通常情况下,存在一定的对立,但两者的目标是一致的,即最小化期望风险
- 模型优化希望最小化经验风险,而容易陷入过拟合,正则项用来约束模型复杂度
- 所以如何平