李沐深度学习
但这样会有一个问题,在bert训练时候可以通过<mask>来学习,但是在下游任务微调的时候,也就是fine-tuning时候,数据中没有<mask>这个东西,所以有了下面的东西。迁移学习前做好的工作所抽取的特征是个比较底层的特征,一般当作embedding用,做自己的工作时需要构建新的网络来抓取新任务需要的信息。最终,模型会生成一个对应于 <cls> 的输出向量,这个向量包含了对整个句子对的理解。想研发相似于CV方面的,基于微调的NLP模型,除了输出层,其他层的参数我是可以复用的,我可以挪到其他任务中去。











