数据集划分:train/dev/test 训练集、验证集、测试集三部分。(当没有测试集的时候,也把验证集叫做test sets).训练集:训练算法模型。验证集:验证不同算法的表现情况,选择最佳算法模型。测试集:测试最好算法的实际表现,作为该算法的无偏估计。(泛化能力)
样本量<10000,6: 2:2。 样本量很大如100万,则98%:1%:1%。
正则化:
L1范数(也称参数洗属性惩罚),绝对值相加,限制参数数值之和,w更加稀疏:指更多零值;虽然L1得到W更稀疏但求导复杂。
L2范数(也称权重衰减),限制参数平方和,平方和开方,L2正则化更常用,求导只用到自身。
dropout: keep_prob=0.8(该层有80%神经元的输出随机置0,通过伯努利分布生成向量点乘实现) 。(dropout只是训练模型使用,测试和实际应用模型不需要),相当于多种网络的融合,减少神经元之间依赖性,更加robust.(是一种正则化技巧)。
数据增广 (data augmentation):添加样本噪声和数量。扭曲,翻转,旋转,缩放。
early stopping:随迭代次数增加,训