解决方案 调整batch_size大小。如果数据集少,则相对减少batch_size,其实是变相增加训练次数。模型中增加层。这是参数拟合上的效果,不管三七二十一,先过拟合再说。更换优化器。有时候adam模式一直不变,切换成RMSprop反而有奇效调整学习率。如果学习率过小会导致收敛太慢,accuracy上不去,适当增加一些。加大epochs。在前面方法都用尽的情况下,增加训练轮数往往能够实现逆转。