虽然有transformer但是LSTM并没有过时 在一些小数据集和短文本上里面lstm是由于transformer的,transformer模型太大了,吃数据。 如果小数据少的话,用BERT参数这么大的模型,训练会产生严重过拟合,泛化能力也差。