type:SGD应用最广泛
最终学习率等于每层学习率×base学习率
如果0.01出现过拟合或者不收敛,降低学习率
lr_policy:学习策略(inv用的比较多)
最大迭代推荐大一点,10W
快照是每迭代多少次保存一下,推荐小一些,1K
type:SGD应用最广泛
最终学习率等于每层学习率×base学习率
如果0.01出现过拟合或者不收敛,降低学习率
lr_policy:学习策略(inv用的比较多)
最大迭代推荐大一点,10W
快照是每迭代多少次保存一下,推荐小一些,1K