预训练模型adapter的几篇论文概述

最新推荐文章于 2025-05-02 22:11:28 发布

Warrier_98

最新推荐文章于 2025-05-02 22:11:28 发布

阅读量4.7k

点赞数 5

文章标签：自然语言处理 pytorch 深度学习机器学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35221036/article/details/113345446

版权

最近阅读几篇 distillation-adapter论文，要求掌握理解算法，和大家分享一下：第一篇是huggingface的adpater代码库中的位置，其中详细讲解了在transformer中加入adapter层和adapterfusion层，第二篇论文在adpater代码库中的位置中也可以找到，主要是将已经训练好的multilingual模型移到另外一种语言上，模型由三部分组成language, task, and invertible adapters组成，第三篇是使用CONTRASTIVE LEARNING来进行distillation的学习。

文章目录

1. AdapterFusion: Non-Destructive Task Composition for Transfer Learning
3. MAD-X: An Adapter-Based Framework for Multi-Task Cross-Lingual Transfer
4. CONTRASTIVE REPRESENTATION DISTILLATION

1. AdapterFusion: Non-Destructive Task Composition for Transfer Learning

解决问题：解决pre-train模型的在多domain上的catastrophic forgetting和dataset balancing的问题。
related work：目前主流的pre-train模型的方法有三个：

fine-tuning：对于n个任务，在每一步训练一个任务模型的时候要初始化一个层，通过学习这个层的结构来学习参数，但是这种方法在超过两种task下就会出现灾难性遗忘的问题。
Multi-Task Learning (MTL)：所有task都同步学习，来学习一个大的结构可以表示所有的模型。这种方法在大量困难任务的学习时loss的设计是一个大问题。
adapter：分为Single-Task Adapters (ST-A)、Multi-Task Adapters (MT-A)。本文提出，可以解决上述的两个问题。

adapter的方法： adapter位置图

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。