bert学习
1. bert整体模型架构
2. 如何做预训练:MLM+NSP
MLM(mask language model):掩码语言模型
- AR(autoregressive) :自回归模型;只能考虑单侧的信息,典型的就是GPT
- P(我爱吃饭) = P(我)P(爱|我)P(吃|我爱)P(饭|我爱吃);
- AE(autoencoding):自编码模型;从损坏的输入数据中重建原始数据。可以使用上下文信息。bert就是使用的AE
- P( 我爱吃饭|我爱mask饭)= P( mask=饭|我爱吃)
- 优化目标:P( 我爱吃饭|我爱maskmask)= P( 吃|我爱)P(饭|我爱)
NSP
3. 如何微调BERT
4. 如何提升BERT在下游任务中的表现
- 获取谷歌中文bert
- 基于任务数据进行微调
例子:微博文本情感分析:
- 在大量通用语料上训练一个LM(Pretrain); —中文谷歌bert
- 在相同领域上继续训练LM(Domain transfer);—在大量微博文本上继续训练这个bert
- 在任务相关的小数据上继续训练LM( Task transfer);—在微博情感文本上(有的文本不属于情感分析范畴)
- 在任务相关数据上做具体任务( Fine-tune)