大模型融合方法-DARE

阿里团队提出DARE方法,通过dropout和rescale策略消除冗余的delta参数,将它们合并到PRE模型中,实现了多源模型能力的高效融合,无需GPU重新训练。这种方法避免了传统模型融合导致的能力下降问题。
摘要由CSDN通过智能技术生成

LLM在SFT之后会产生大量的冗余参数(delta参数),阿里团队提出DARE方法来消除delta参数,并将其合并到PRE模型中,从而实现多源模型能力的吸收。

DARE无需GPU重新训练,其思路非常简单,就跟dropout类似:
m t ∼ Bernoulli ⁡ ( p ) δ ~ t = ( 1 − m t ) ⊙ δ t δ ^ t = δ ~ t / ( 1 − p ) θ D A R E t = δ ^ t + θ P R E \begin{gathered} \boldsymbol{m}^t \sim \operatorname{Bernoulli}(p) \\ \widetilde{\boldsymbol{\delta}}^t=\left(\mathbf{1}-\boldsymbol{m}^t\right) \odot \boldsymbol{\delta}^t \\ \hat{\boldsymbol{\delta}}^t=\widetilde{\boldsymbol{\delta}}^t /(1-p) \\ \boldsymbol{\theta}_{\mathrm{DARE}}^t=\hat{\boldsymbol{\delta}}^t+\boldsymbol{\theta}_{\mathrm{PRE}} \end{gathered} mtBernoulli(p)δ t=(1mt)δtδ^t=δ t/(1p)θDAREt=δ^t+θPRE
两个步骤:

  1. drop:随机mask参数为0
  2. rescale:对保存的参数rescale,这样可以保证神经元期望值不变: E n o t m a s k = x , E m a s k = p ∗ x p E_{not_{mask}}=x,E_{mask}=\frac{p*x}{p} Enotmask=x,Emask=ppx

传统的模型融合只是对神经元进行加权求和,这样会导致模型能力骤降。DARE方法通过dropout避免了这种问题。

多源模型融合

θ D A R E t k = DARE ⁡ ( θ S F T t k , θ P R E ) ,  for  1 ≤ k ≤ K , θ M = θ P R E + λ ⋅ ∑ k = 1 K δ ^ t k = θ P R E + λ ⋅ ∑ k = 1 K ( θ D A R E t k − θ P R E ) . \begin{gathered} \boldsymbol{\theta}_{\mathrm{DARE}}^{t_k}=\operatorname{DARE}\left(\boldsymbol{\theta}_{\mathrm{SFT}}^{t_k}, \boldsymbol{\theta}_{\mathrm{PRE}}\right), \text { for } 1 \leq k \leq K, \\ \boldsymbol{\theta}_{\mathrm{M}}=\boldsymbol{\theta}_{\mathrm{PRE}}+\lambda \cdot \sum_{k=1}^K \hat{\boldsymbol{\delta}}^{t_k}=\boldsymbol{\theta}_{\mathrm{PRE}}+\lambda \cdot \sum_{k=1}^K\left(\boldsymbol{\theta}_{\mathrm{DARE}}^{t_k}-\boldsymbol{\theta}_{\mathrm{PRE}}\right) . \end{gathered} θDAREtk=DARE(θSFTtk,θPRE), for 1kK,θM=θPRE+λk=1Kδ^tk=θPRE+λk=1K(θDAREtkθPRE).
流程图:
procedure

实验结果

result


参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值