Gavin老师Transformer直播课感悟 - BERT多任务Fine-tuning案例实战

最新推荐文章于 2024-03-28 09:35:36 发布

m0_49380401

最新推荐文章于 2024-03-28 09:35:36 发布

阅读量1k

点赞数 1

分类专栏： AI 文章标签： transformer 神经网络深度学习

本文链接：https://blog.csdn.net/m0_49380401/article/details/121569747

版权

本文深入探讨了BERT的微调策略，尤其是多任务Fine-tuning，介绍了预训练优化技巧，并通过实例展示了如何在Transformer架构中实现多任务训练。重点讲解了在文本分类任务中，BERT如何利用[CLS]输出全局信息，以及如何通过调整学习率优化不同层次的神经网络。

摘要由CSDN通过智能技术生成

一、概述

从任务的视角来看BERT的微调(Fine-tuning), 通过下游监督式学习的任务（设定预定义的标签）来对BERT预训练之后的网络进行微调，这里需要重点关注的是"Further Pre-training"部分和"Multi-Task Fine-tuning"部分。BERT在工作时是个分类器，无论针对的是单任务还是多任务，是聚焦于全局的信息([CLS])还是局部的信息（NER），BERT能够捕获领域通用的语义信息，从而能够更精细化地表达输入内容，在输出时使用vector或者matrix，所以很容易对输出结果进行处理，从而导致BERT可以和传统的机器学习算法相结合，把BERT作为整个训练或推理的一个阶段或者使用BERT作为上游的输入。从下图看，首先BERT会进行一个初步的训练，这个训练可能使用的是比较通用的数据集，然后使用领域相关的数据集进行进一步的训练，所以在前面训练的基础上进行了状态的更新，状态更新意味着MAP的运用，然后进入流水线式的单个任务或者多个任务的微调(Fine-tuning)的过程。

对于文本分类任务，BERT使用[CLS]最后产出的hidden state来表达整个语句的全局的信息，这是因为BERT网络的最后一层表达了更抽象的信息如语义级别的信息。在下面的公式里，p(c|h)表示条件概率，BERT使用简单的softmax线性处理输出的hidden向量(vector)，计算出label c（类别）的概率，公式里的W代表任务相关的参数矩阵，

最低0.47元/天解锁文章

m0_49380401

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Gavin老师Transformer直播课感悟 - BERT多任务Fine-tuning案例实战

一、概述从任务的视角来看BERT的微调(Fine-tuning), 通过下游监督式学习的任务（设定预定义的标签）来对BERT预训练之后的网络进行微调，这里重点需要关注的是"Further Pre-training"部分和"Multi-Task Fine-tuning"部分。BERT在工作时是个分类器，无论针对的是单任务还是多任务，是聚焦于全局的信息([CLS])还是局部的信息（NER），BERT能够捕获领域通用的语义信息从而能够更精细化地表达输入内容，在输出时使用vector或者matr...
复制链接

扫一扫

专栏目录