联邦大模型降低计算成本的有效方法（FedAdapter） 683e4b06485e4d8ba412877ade923b0c

Jerric-wu

于 2023-08-28 11:48:21 发布

阅读量533

点赞数

文章标签：深度学习算法可信计算技术

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42740750/article/details/132535731

版权

联邦大模型降低计算成本的有效方法（FedAdapter）

出发点：改进联邦大模型FedNLP，解决它的通信成本高、训练时间长问题。

在这里插入图片描述

创新点：

1、通过向FedNLP模型中构建adapter来实现减少通信成本与计算成本，由于adapter中深度和广度等参数的配置对训练的速度与有效性非常敏感，所以提出使用一种循序渐进的训练方法来动态部署adapter的配置（这与人类如何以一种渐进式的方式学习知识和现代学习理论产生共鸣），在模型的顶层（与输出层接近）训练很小或较浅的adapter来学习浅层知识，在较深或较大的adapter中来学习深层知识。

2、通过接入联邦学习设置下参与者的设备来进一步完善未来adapter的配置（持续学习）。

adapter：在transformer各层之间注入的小模块，冻结大模型中所有transformer的模型参数（通常为>99%），所以adapter成为预训练模型中唯一的可调模块，因此可大大减少产生的通信或计算开销。

方法

训练过程

刚开始使用云服务器对大模型进行预训练，然后将这个模型发布至不同的客户端，客户端对其进行微调训练，在微调的过程中首先将Transformer模块的参数进行冻结，在近于输出的Transformer插入较小规格的adapter进行训练，此时更有利于学习浅层知识，直至下游任务的精度趋于平衡时再向模型的深层插入更多的adapter来学习更深的知识。这是一个轮次的训练过程，为了更好地找到下一个轮次adapter的配置，adapter在训练这一个轮次的过程中还会进行多个adapter训练的集群，通过比较多个不同训练集群的结果来筛选出最好的adapter的配置。

加了Adapter的Transformer结构

在这里插入图片描述

训练算法

在这里插入图片描述

结果（达到某一精度所需要的时间）

在这里插入图片描述

博客等级

码龄7年

1
原创

0
点赞

0
收藏

0
粉丝

关注

私信

热门文章

联邦大模型降低计算成本的有效方法（FedAdapter） 683e4b06485e4d8ba412877ade923b0c 533

最新评论

联邦大模型降低计算成本的有效方法（FedAdapter） 683e4b06485e4d8ba412877ade923b0c
CSDN-Ada助手: 非常恭喜您开启了博客创作的旅程！您的标题“联邦大模型降低计算成本的有效方法（FedAdapter）”引人入胜，令人期待您对这一领域的深入探索。在联邦学习领域中，探索降低计算成本的方法无疑是非常重要的，而您所提及的FedAdapter方法也引起了我的兴趣。在我看来，作为下一步的创作建议，您可以进一步探讨FedAdapter方法在实际应用中的优势和局限性。您可以考虑从不同应用场景的角度，分析该方法对计算成本的降低效果，并探讨其在不同数据分布和模型规模下的适用性。此外，您还可以分享一些实践经验或者案例研究，以帮助读者更好地理解和应用该方法。总体而言，我对您的第一篇博客非常期待，并认为您有着很好的创作潜力。希望您能够保持谦虚的态度，持续深入研究，并与读者们分享更多有价值的内容。祝愿您在博客创作的道路上取得更多的成功！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。