深度学习基本技巧
选择合适的损失函数
- 平方损失
- 交叉熵损失
- …
小批量样本(mini-batch)
首先打乱数据,然后选择合适的小批量样本,重复epoch次。例如样本量100, 小批量mini-batch样本为20,epoch为10。则先打乱这100个样本,顺序选取20个样本,更新一次参数,然后再选取下20个样本,再更新一次参数,直到把100个样本选取完,这样重复epoch(10)次。
其他的可以使用随机梯度下降为一个一个的选择样本更新参数,而批量梯度下降使用全部样本更新一次参数。
##使用新的激活函数
常用的为sigmoid, tanh。
ReLU(Rectified Linear Unit)
ReLU的变体
LeakyReLU
parametric ReLU
其中, α \alpha α由梯度下降法学习
#Maxout
适应性学习率(adaptive learning rate)
仔细设置学习率,如果学习率偏大,则每次更新后总损失不会下降,而学习率偏小时,训练会很慢。
简单却流行的算法为学习率随着时间变化而减小, η t = η t + 1 \eta^{t} = \frac{\eta}{\sqrt{t+1}} ηt=t+1η。
Adagrad
w ← w − η w ∂