Bert在文本分类任务重如何进行 fine-tuning

雪糕遇上夏天

已于 2022-07-11 16:25:21 修改

阅读量559

点赞数

分类专栏： NLP 深度学习神经网络文章标签：深度学习人工智能自然语言处理神经网络

于 2022-07-11 16:24:27 首次发布

本文链接：https://blog.csdn.net/weixin_40935425/article/details/125724316

版权

深度学习同时被 3 个专栏收录

13 篇文章 1 订阅

订阅专栏

神经网络

11 篇文章 1 订阅

订阅专栏

NLP

6 篇文章 0 订阅

订阅专栏

Bert在文本分类任务重如何进行 fine-tuning

1. 前言
2. 关于Bert
3. 训练

1. 前言

文本分类是个经典的NLP任务。随着预训练语言模型的大受欢迎，诸如Bert等预训练语言模型在文本分类任务上也有这十分出色的表现。这篇文章并没有什么高深的tricks，只是最传统的方式的简单介绍。
由于Bert本身并不会直接输出文本类别，因此需要对模型进行稍加改造，一般是Bert+Linear再通过softmax获取最终的类别分布，因此就涉及到一些Bert部分的微调和Linear部分的训练工作，本文接介绍一些用Bert做文本分类任务时的一些常用模型训练技巧。

2. 关于Bert

关于Bert有几个关键信息需要了解。
Bert是有Transformers的encoder部分构成的，包含多个encoder block的堆叠。Bert的输入是一个不超过512个tokens的序列，输出是这个序列的表征，中间层的hidden_size为768。在文本分类中，Bert一般用最后一层的[CLS]作为整个句子的表征，再加个线性变换最终softmax成分别的分布。

3. 训练

训练一般有3种方式。
【1】Bert 直接在特定任务上做训练
【2】Bert在特定任务上进一步pre-train，再在有label数据上做训练。
【3】Bert在进一步pre-train之后，在multi-task fine-tuning，再在有label的数据上做训练。

3.1 Bert 直接在特定任务上做训练

这一步是最基础和关键的。在这里我们需要学习率的选择。常用的方式是不同的层采用不同的学习率进行梯度更新。
$\theta^l_t = \theta^l_{t-1} - \eta^l \cdot \bigtriangledown_{\theta^l} J(\theta),$
其中 $\eta^l$ 表示的是第l层的学习率，我们首先设置一个初始学习率 $\eta^L$ ，然后用如下策略$\eta^{k-1} = \xi \cdot \eta^k $进行学习率的调整，其中$ \xi < 1$，当然也可以等于1。