【Coding】BERT finetune用任意几个Layer的output feature作为final logits

最新推荐文章于 2024-04-03 15:46:59 发布

SUFEHeisenberg

最新推荐文章于 2024-04-03 15:46:59 发布

阅读量266

点赞数

分类专栏： Pytorch NLP Coding 文章标签： bert 深度学习自然语言处理

本文链接：https://blog.csdn.net/weixin_43557139/article/details/123210087

版权

Coding 同时被 3 个专栏收录

32 篇文章 1 订阅

订阅专栏

NLP

25 篇文章 1 订阅

订阅专栏

Pytorch

8 篇文章 0 订阅

订阅专栏

【Coding】BERT finetune用任意几个Layer的output feature作为final logits

某些paper中表示用最后四个layer的output feature结果要好一些。根据huggingface model output输出

outputs = self.bert(input_ids,
                    attention_mask=attention_mask,
                    token_type_ids=token_type_ids,
                    position_ids=position_ids, 
                    head_mask=head_mask)

hidden_states = outputs[1]
pooled_output = torch.cat(tuple([hidden_states[i] for i in [-4, -3, -2, -1]]), dim=-1)
pooled_output = pooled_output[:, 0, :]
pooled_output = self.dropout(pooled_output)
# classifier of course has to be 4 * hidden_dim, because we concat 4 layers
logits = self.classifier(pooled_output)