第7章 深度学习中的正则化
正则化目的:用来减少泛化误差
7.1 参数泛化惩罚,如L2参数正则化
7.2 作为约束的范数惩罚,即在原始的目标函数上添加一系列惩罚项
7.3正则化和欠约束问题,大多数形式的正则化能够保证应用于欠约定问题的迭代方法收敛
7.4数据集增强,数据集不够或者鲁棒性不好时,需要构造一些假样本,如加入噪声,图片倾斜等等。
7.5噪声鲁棒性。注入噪声远比简单地收缩参数强大,特别是噪声被添加到隐藏单元时会更加强大。
向输出目标注入噪声:大多数数据集的输出标签都有一定错误的,因此可以使用标签平滑方法,增则化k个输出的softmax函数的模型。
7.6半监督学习。使用主成分分析作为分类前的预处理步骤
7.7多任务学习。参数共享,多个输出标签
7.8提前终止。对于一些会过拟合的大模型时,训练误差会随着时间的推移逐渐降低但验证集的误差会再次上升,这时就需要提前终止。
7.9参数绑定和参数共享。如卷积网络
7.10稀疏表示。惩罚神经网络中的激活单元。
7.11Bagging和其它集成方法
7.12Dropout
7.13对抗训练
7.14切面距离/正切传播和流形正切分类器
第8章 深度模型中的优化
1 小批量随机优化,更大的批量需要更多内存,回报可能却小于线性。gpu一般使用2的幂数会获得更少的运行时间
2 除非训练集特别大,通常最好是多次遍历训练集。但欠拟合和计算效率却是问题。否则是过拟合
3 随机梯度下降(SGD)是最受欢迎的方法,但学习过程有时会很慢,动量方法旨在加速学习,特别是处理高曲率/小但一致的梯度,或是带噪声的梯度。
4 一般初始化模型的权重为高斯或均匀分布中随机抽取的值
5 自适应学习率算法。AdaGrad/Adam