VLM 系列——MoE-LLaVa——论文解读

37 篇文章 17 订阅 ¥89.90 ¥99.00
MoE-LLaVA是基于CLIP的视觉编码器与多语言解码器(含Moe模块)的模型,旨在改进Llava1.5。它通过三阶段训练策略,探索了MoE在大型视觉语言模型中的应用。模型在多个视觉理解数据集上展现出优秀性能,尽管大LLM可能导致效果下降。论文强调了MoE在扩展参数量的同时保持计算成本,以及其在幻觉抑制方面的潜力。
摘要由CSDN通过智能技术生成

一、概述

1、是什么

     moe-Llava 是Llava1.5 的改进 全称《MoE-LLaVA: Mixture of Experts for Large Vision-Language Models》,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答,潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述),未知是否能偶根据图片写代码(HTML、JS、CSS)。支持单幅图片输入(可以作为第一个或第二个输入),多轮文本对话。

    整体基于Llava1.5,包括训练数据,主要变化在于LLM换为了更小的几个版本,并且LLM增加了moe模块,进行了三阶段训练(前两个阶段和llava1.5相同,第三阶段训练moe层)。具体结构包含:基于CLIP的视觉编码器,以及多个小语言解码器(添加moe层),使用最简单的两层FC构成MLP映射视觉特征到文本长度。

2、亮点

    论文中作者的总结贡献分为三点:

    *探索了 MoE-tuning,这是一种新的三阶段训练策略&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TigerZ*

你点滴支持,我持续创作,羞羞

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值