大模型融合方法-DARE

最新推荐文章于 2024-07-31 22:58:41 发布

transformer_WSZ

最新推荐文章于 2024-07-31 22:58:41 发布

阅读量778

点赞数 24

分类专栏： LLM 文章标签： LLM 模型融合

本文链接：https://blog.csdn.net/transformer_WSZ/article/details/137177880

版权

LLM 专栏收录该内容

21 篇文章 1 订阅

订阅专栏

阿里团队提出DARE方法，通过dropout和rescale策略消除冗余的delta参数，将它们合并到PRE模型中，实现了多源模型能力的高效融合，无需GPU重新训练。这种方法避免了传统模型融合导致的能力下降问题。

摘要由CSDN通过智能技术生成

LLM在SFT之后会产生大量的冗余参数(delta参数)，阿里团队提出DARE方法来消除delta参数，并将其合并到PRE模型中，从而实现多源模型能力的吸收。

DARE无需GPU重新训练，其思路非常简单，就跟dropout类似：
$\begin{gathered} \boldsymbol{m}^t \sim \operatorname{Bernoulli}(p) \\ \widetilde{\boldsymbol{\delta}}^t=\left(\mathbf{1}-\boldsymbol{m}^t\right) \odot \boldsymbol{\delta}^t \\ \hat{\boldsymbol{\delta}}^t=\widetilde{\boldsymbol{\delta}}^t /(1-p) \\ \boldsymbol{\theta}_{\mathrm{DARE}}^t=\hat{\boldsymbol{\delta}}^t+\boldsymbol{\theta}_{\mathrm{PRE}} \end{gathered}$
两个步骤：

drop：随机mask参数为0
rescale：对保存的参数rescale，这样可以保证神经元期望值不变： $E_{not_{mask}}=x,E_{mask}=\frac{p*x}{p}$

传统的模型融合只是对神经元进行加权求和，这样会导致模型能力骤降。DARE方法通过dropout避免了这种问题。

多源模型融合

$\begin{gathered} \boldsymbol{\theta}_{\mathrm{DARE}}^{t_k}=\operatorname{DARE}\left(\boldsymbol{\theta}_{\mathrm{SFT}}^{t_k}, \boldsymbol{\theta}_{\mathrm{PRE}}\right), \text { for } 1 \leq k \leq K, \\ \boldsymbol{\theta}_{\mathrm{M}}=\boldsymbol{\theta}_{\mathrm{PRE}}+\lambda \cdot \sum_{k=1}^K \hat{\boldsymbol{\delta}}^{t_k}=\boldsymbol{\theta}_{\mathrm{PRE}}+\lambda \cdot \sum_{k=1}^K\left(\boldsymbol{\theta}_{\mathrm{DARE}}^{t_k}-\boldsymbol{\theta}_{\mathrm{PRE}}\right) . \end{gathered}$
流程图：
procedure