1 在training set上就已经效果不佳
属于模型就没train好。
case 1:受到局部最优影响,没有收敛到全局最优
solution:momentum(adam = RMSProp + momentum)
case 2:层数高时,靠近output的层率先快速收敛,靠近input的层则效果不明显,导致train不好
solution:RBM,激活函数选择(ReLu)
boosting
2. 在testing set上效果不佳
over fitting
solution 1:early stopping
train到后面其实是对training set的over fitting了。由于testing set未知,可以分割出一个validation set来充当testing set。
solution 2:regularization
修改lost function,加一个正则项来限制weight的over fitting,常见的有L2 norm(weight decay),L1 norm
solution3:dropout
solution4:bagging