针对小的数据集,比如:几百,几千,小一万等,可以用简单的模型,自己用简单的卷积和池化串行搭就行了,比如lenet-5,不用上VGG或resnet,这样收敛速度更快。 LSTM的学习速率为:0.001就可以收敛,而Transformer的速率要为0.0001才行