超参数的选择
目标:
调整模型的有效容量以匹配任务的复杂性,有效的容量包括3个因数:模型的表示容量,学习算法成功的最小化训练模型代价能力,以及代价函数和训练过程正则化模型的程度。
具有更多网络层,每层有更多隐藏单元的模型具有更多的表示能力。
泛化误差以某个超参数为变量,作为函数绘制出来,通常表现为u形曲线。
各种超参数对模型容量的影响
超参数 | 容量何时增加 | 原因 | 注意事项 |
---|---|---|---|
隐藏单元数量 | 增加 | 增加隐藏单元的数量会增加模型的表示能力 | 但模型所需要的时间和内存代价会随着隐藏单元的数量增加而增加 |
学习率 | 调制最优 | 不正确的学习率会导致低容量的学习模型 | |
卷积核宽度 | 增加 | 增加卷积核宽度会增肌模型的参数数量 | 较宽的卷积核导致较窄的输出尺寸,除非使用隐式填充减少此影响。否则会降低模型容量较宽的卷积核需要更多的内存存储参数,并会增加内存运行时间 |
隐式填充 | 增加 | 在卷积前隐式添加零能保持较大尺寸的表示 | 会增肌运行时间和内存 |
权重衰减(W) | 降低 | 降低权重衰减系数使得模型参数可以自由的变大 | |
droput比率 | 降低 | 较少的丢弃单元可以更多的让 |