BERT在finetune时,优化器的选择其实是有讲究的,这里进行相关整理~
BERT在预训练时,对标准Adam优化器优化过程进行了省略
所以,BERT_Adam会造成Finetune时的不稳定(insstability)
小样本学习的时候,一定记得要换回标准的Adam优化器!
![](https://i-blog.csdnimg.cn/blog_migrate/2c659232926ea694dadda222a39ec456.png)
BERT在finetune时,优化器的选择其实是有讲究的,这里进行相关整理~
BERT在预训练时,对标准Adam优化器优化过程进行了省略
所以,BERT_Adam会造成Finetune时的不稳定(insstability)
小样本学习的时候,一定记得要换回标准的Adam优化器!