最近看着这些新姿势,一不小心就到大半夜了,所以这里不一一细说了,把一些我认为很有潜力或者优势的新姿势给大家分享分享。
1、sinerelu
ReLU函数的一个变体,对relu添加波动因子,在ReLU系,略优于其他
2、swish
对sigmoid函数的一个大更新或者大发现,公式:y = x * sigmoid(βx)
论文:https://arxiv.org/abs/1710.05941
图片来源于:https://www.cnblogs.com/makefile/p/activation-function.html
3、BatchRenormalization
基于BN的优化版,对小的batch_size也有非常好的效果
4、Padam
基于Adam()的优化版,对数据进行部分自适应优化。
论文:https://arxiv.org/pdf/1806.06763.pdf
5、FTML
一种略优于Adam的优化器
论文:http://www.cse.ust.hk/~szhengac/papers/icml17.pdf)
6、Norm族
Layer Normalizaiton、Instance Normalization、Group Normalization、Switchable Normalization
详见:https://blog.csdn.net/liuxiao214/article/details/81037416