Early Stopping training的准确率会一直上升,test准确率并不会,当test的准确率即将下降,也就是即将over fitting时,提前stop。 Dropout 迫使复杂度降低,有效的w数量少一点,有概率是的w为0。 Clarification pytorch和tf的区别 train&test test的时候要全部连接,不能丢弃,用的eval() SGD not random!符合一定分布规律的。