联邦大模型降低计算成本的有效方法(FedAdapter)
出发点:改进联邦大模型FedNLP,解决它的通信成本高、训练时间长问题。
创新点:
1、通过向FedNLP模型中构建adapter来实现减少通信成本与计算成本,由于adapter中深度和广度等参数的配置对训练的速度与有效性非常敏感,所以提出使用一种循序渐进的训练方法来动态部署adapter的配置(这与人类如何以一种渐进式的方式学习知识和现代学习理论产生共鸣),在模型的顶层(与输出层接近)训练很小或较浅的adapter来学习浅层知识,在较深或较大的adapter中来学习深层知识。
2、通过接入联邦学习设置下参与者的设备来进一步完善未来adapter的配置(持续学习)。
- adapter:在transformer各层之间注入的小模块,冻结大模型中所有transformer的模型参数(通常为>99%),所以adapter成为预训练模型中唯一的可调模块,因此可大大减少产生的通信或计算开销。
方法
训练过程
刚开始使用云服务器对大模型进行预训练,然后将这个模型发布至不同的客户端,客户端对其进行微调训练,在微调的过程中首先将Transformer模块的参数进行冻结,在近于输出的Transformer插入较小规格的adapter进行训练,此时更有利于学习浅层知识,直至下游任务的精度趋于平衡时再向模型的深层插入更多的adapter来学习更深的知识。这是一个轮次的训练过程,为了更好地找到下一个轮次adapter的配置,adapter在训练这一个轮次的过程中还会进行多个adapter训练的集群,通过比较多个不同训练集群的结果来筛选出最好的adapter的配置。