1.Loss function
如果是mini-batch,那么loss一般是抖动下降的,对于不同的lr有着不同的loss下降的曲线。
2.Train/Val accuracy
不同的acc曲线对应着不同的含义,比如说一般来说epoch上升,acc也会上升,但是如果过拟合了,acc在val会下降。
3.Ratio of weights:updates
如果将grad和weights变成向量,那么两个向量的长度的比例可以看作是ratio,其中ratio是1e-3左右。
4.Activation/Gradient distributions per layer
每一层的max min 直方图分布等,convNetJs上面有demo
5.First-layer Visualizations
可以看第一层的特征,第一层一般是纹理特征,如果学习正确,会是一些线条来提取线条的分布用的。