联邦大模型降低计算成本的有效方法(FedAdapter) 683e4b06485e4d8ba412877ade923b0c

联邦大模型降低计算成本的有效方法(FedAdapter)

出发点:改进联邦大模型FedNLP,解决它的通信成本高、训练时间长问题。

在这里插入图片描述

创新点:

1、通过向FedNLP模型中构建adapter来实现减少通信成本与计算成本,由于adapter中深度和广度等参数的配置对训练的速度与有效性非常敏感,所以提出使用一种循序渐进的训练方法来动态部署adapter的配置(这与人类如何以一种渐进式的方式学习知识和现代学习理论产生共鸣),在模型的顶层(与输出层接近)训练很小或较浅的adapter来学习浅层知识,在较深或较大的adapter中来学习深层知识。

2、通过接入联邦学习设置下参与者的设备来进一步完善未来adapter的配置(持续学习)。

  • adapter:在transformer各层之间注入的小模块,冻结大模型中所有transformer的模型参数(通常为>99%),所以adapter成为预训练模型中唯一的可调模块,因此可大大减少产生的通信或计算开销。

方法

训练过程

刚开始使用云服务器对大模型进行预训练,然后将这个模型发布至不同的客户端,客户端对其进行微调训练,在微调的过程中首先将Transformer模块的参数进行冻结,在近于输出的Transformer插入较小规格的adapter进行训练,此时更有利于学习浅层知识,直至下游任务的精度趋于平衡时再向模型的深层插入更多的adapter来学习更深的知识。这是一个轮次的训练过程,为了更好地找到下一个轮次adapter的配置,adapter在训练这一个轮次的过程中还会进行多个adapter训练的集群,通过比较多个不同训练集群的结果来筛选出最好的adapter的配置。

加了Adapter的Transformer结构

在这里插入图片描述

训练算法

在这里插入图片描述

结果(达到某一精度所需要的时间)

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值