1.什么是bitch_size与epoch。
假设train_data一共有10000个数据,我们在训练时并不是minimize整个train_data的loss,而是把train_data分为好多部分,每个部分的数据量的大小就是bitch_size。如果bitch_size=20,那在训练时把20个数据作为一组,在这20个数据上做梯度下降,最小化loss之后,再在下一组数据上训练,总共为10000/20=500组。当把所有组都训练一遍之后,就叫做一个epoch,如果设置epoch=10,那就是重复十次。
2.训练深度学习网络时的几个小提示.
2.1 Early stopping
2.2 Regularization
2.3 Dropout
2.4 New activation function
2.5 Adaptive learning rate
3.使用深度学习的方法时,在test_data上得到的结果不好,第一个需要去看的是模型在train_data上的accuracy怎么样,如果在train上的结果很好,可能的结果是overfitting;但如果在train_data上的accuracy都不好,说明训练的时候都没把模型训练好,loss函数设置得不好导致模型没有收敛或者本身选的模型不好等等,就要考虑改变参数活着改变网络结果。
4.在训练的时候发现,有时候可以收敛,train_accuracy越来越好,但同样的配置,再训练一次会发现可能收敛不了,train_accuracy一直在一个值附近上下波动。当遇见这种情况,在没有更好的方法之前(优化网络等),解决方法是停止当前无法收敛的训练,重新开始下一次训练。
5.深度学习计算机视觉中最重要的几个数据集:mnist,cifar10和cifar100,PASCAL,imagenet,mircosoft coco。