Optimization
SGD:比较稳定
Adam:算的比较快,波动大
有助于optimization的方式:shuffling、dropout、gradient noise、warm up
了解到的optimizer
CV领域多是SGD,NLP领域多是Adam
Optimization
SGD:比较稳定
Adam:算的比较快,波动大
有助于optimization的方式:shuffling、dropout、gradient noise、warm up
了解到的optimizer
CV领域多是SGD,NLP领域多是Adam