同模型融合技术

MOE

FuseLLM 

对于不同架构的模型如何进行

项目地址

fanqiwan/FuseAI: FuseAI Project (github.com)

文章解读

大语言模型的知识融合 - 知乎 (zhihu.com)

从语言模型的角度来看,概率分布矩阵可以反映其在理解文本时的某些固有知识。 因此,来自不同LLM的同一文本的不同概率分布矩阵,可用于表示这些模型中嵌入的不同知识。 认识到这一点,提出的 FUSELLM 方法通过概率建模来解决 LLM 融合问题,旨在通过合并源 LLM 的概率分布来创建统一的 LLM

为了实现这一目标,当从一组要融合的 LLM 开始时,FUSELLM 在反映预训练数据集的原始文本语料库上对目标 LLM 进行轻量级持续训练。 FUSELLM 不是仅仅依赖于因果语言建模( CLM )目标,而是非常重视最小化一个目标 LLM 的概率分布与其源 LLM 的概率分布之间的差异。

对于语料库 C 中的每个文本,应用提供的 K 个源 LLM 并获得一组概率分布矩阵,表示为 {Pθj },j=1,K,其中 θj 表示 LLM 的参数。 利用这些矩阵,将各个模型的知识外化到统一的空间中,本质上是在文本上创建统一的概率表示。 源 LLM 之间词汇差异可能导致矩阵 {Pθj} 无法对齐。 为了解决这个问题,采用了token对齐策略促进跨模型的更连贯概率解释

为了结合源LLM的集体知识,同时保留其独特的优势,必须评估不同LLM的质量并为其各自的分布矩阵分配不同的重要性级别。 为此,在处理文本 t 时,用分布矩阵和黄金标签之间的交叉熵损失作为 LLM 预测质量的指标(Marion,2023)。 源LLM的交叉熵分数越低,意味着对文本的理解越准确,其预测应该具有更大的意义。

疑问点

上述目标将序列似然分解为token级别的交叉熵损失

对于在已经生成的文字后的下一个token预测是如何通过概率矩阵展示的

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值