Optimization in deep learning
深度学习中优化器的使用是必不可少的,以下介绍各种优化器以及变体,个人能力有限,如有错误,请纠正。
Optimization
- Gradient Descent (Bath gradient descent, Stochastic gradient descent, min-bath gradient descent)
- Momentum Method and the Nesterov Variant
- Adaptive Learning Methods (AdaGrad, RMSProp, Adam)
Neuron
一般性的神经元结构
Loss Function
loss function :
常用的损失函数:
- MSE
- Hinge loss
- Cross Entropy
- Focal loss
- Triplet loss
- Center loss
分类 :Cross Entropy (log loss)
回归 :MSE
Back Propagation
1.高度非线性化的方程 ,无法求闭合解 ,只能通过迭代求解
2.使用Back Propagation更新网络权值
Gradient Descent Method
更新方向为Gradient direction的反方向
Method
- Batch gradient descent : Use all m examples in each iteration
- Stochastic g