预训练模型adapter的几篇论文概述

最近阅读几篇 distillation-adapter论文,要求掌握理解算法,和大家分享一下:第一篇是huggingface的adpater代码库中的位置,其中详细讲解了在transformer中加入adapter层和adapterfusion层,第二篇论文在adpater代码库中的位置中也可以找到,主要是将已经训练好的multilingual模型移到另外一种语言上,模型由三部分组成language, task, and invertible adapters组成,第三篇是使用CONTRASTIVE LEARNING来进行distillation的学习。

1. AdapterFusion: Non-Destructive Task Composition for Transfer Learning

解决问题:解决pre-train模型的在多domain上的catastrophic forgetting和dataset balancing的问题。
related work:目前主流的pre-train模型的方法有三个:

  1. fine-tuning:对于n个任务,在每一步训练一个任务模型的时候要初始化一个层,通过学习这个层的结构来学习参数,但是这种方法在超过两种task下就会出现灾难性遗忘的问题。
  2. Multi-Task Learning (MTL):所有task都同步学习,来学习一个大的结构可以表示所有的模型。这种方法在大量困难任务的学习时loss的设计是一个大问题。
  3. adapter:分为Single-Task Adapters (ST-A)、Multi-Task Adapters (MT-A)。本文提出,可以解决上述的两个问题。

adapter的方法:adapter位置图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值