finetune与Bert

一:过拟合

1.1 直接finetune

容易过拟合

1.2 layer finetune

拷贝部分预训练参数,而其他随机初始化

  1. 两部分一同训练:提升(左下线5)
  2. 只训练随机初始化的部分:破坏(左下线2),但在此基础上再解冻剩余部分会恢复(左下线3)
    在这里插入图片描述
    李宏毅transfer learning.
    How transferable are features in deep neural networks? 论文笔记
    How transferable are features in deep neural networks?

1.3ULMFiT

Universal Language Model Fine-tuning for Text Classification
从最后一层到前层,逐层解冻

2 Bert节省内存

以时间节省内存

3 Bert蒸馏

Bert短路–>加速了

4.post train

不是很懂,大体是对已经与训练过的模型,使用新的数据集进一步预训练,之后再做finetune。
疫情期间微博数据情感分析的任务中,第一名(还是第三名?)用这个方法进行进一步预训练,数据集大小10w
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值