Gavin老师Transformer直播课感悟 - BERT多任务Fine-tuning案例实战

本文深入探讨了BERT的微调策略,尤其是多任务Fine-tuning,介绍了预训练优化技巧,并通过实例展示了如何在Transformer架构中实现多任务训练。重点讲解了在文本分类任务中,BERT如何利用[CLS]输出全局信息,以及如何通过调整学习率优化不同层次的神经网络。
摘要由CSDN通过智能技术生成

一、概述

        从任务的视角来看BERT的微调(Fine-tuning), 通过下游监督式学习的任务(设定预定义的标签)来对BERT预训练之后的网络进行微调,这里需要重点关注的是"Further Pre-training"部分和"Multi-Task Fine-tuning"部分。BERT在工作时是个分类器,无论针对的是单任务还是多任务,是聚焦于全局的信息([CLS])还是局部的信息(NER),BERT能够捕获领域通用的语义信息,从而能够更精细化地表达输入内容,在输出时使用vector或者matrix,所以很容易对输出结果进行处理,从而导致BERT可以和传统的机器学习算法相结合,把BERT作为整个训练或推理的一个阶段或者使用BERT作为上游的输入。从下图看,首先BERT会进行一个初步的训练,这个训练可能使用的是比较通用的数据集,然后使用领域相关的数据集进行进一步的训练,所以在前面训练的基础上进行了状态的更新,状态更新意味着MAP的运用,然后进入流水线式的单个任务或者多个任务的微调(Fine-tuning)的过程。

对于文本分类任务,BERT使用[CLS]最后产出的hidden state来表达整个语句的全局的信息,这是因为BERT网络的最后一层表达了更抽象的信息如语义级别的信息。在下面的公式里,p(c|h)表示条件概率,BERT使用简单的softmax线性处理输出的hidden向量(vector),计算出label c(类别)的概率,公式里的W代表任务相关的参数矩阵,

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值