【AIGC半月报】AIGC大模型启元:2024.08(下)

(1) Nemotron-4-Minitron(Nvidia LLM)

2024.08.16 全球AI领导者英伟达(Nvidia)开源了最新大模型Nemotron-4-Minitron-4B和Nemotron-4-Minitron-8B。
  据悉这两个模型是基于Meta开源的Llama-3.1 8B,但英伟达使用了两种高效的训练方法结构化剪枝和知识蒸馏。
  相比从头训练,每个额外模型所需的训练token数据更少,仅需大约1000亿token,最多减少40倍,算力成本可节省1.8倍。性能却依然媲美Llama-3.1 8B、Mistral 7B、Gemma 7B等知名模型,而这些模型是在高达15万亿token数据训练而成。

推荐文章: 英伟达开源新大模型:训练数据减少40倍,算力节省1.8倍
模型地址:
4B开源地址:https://huggingface.co/nvidia/Nemotron-4-Minitron-4B-Base
8B开源地址:https://huggingface.co/nvidia/Nemotron-4-Minitron-8B-Base

(2) VITA(腾讯优图多模态大模型)

2024.08.16 GPT-4o 的卓越多模态能力和用户交互体验在实际应用中非常重要,但没有开源模型在这两个领域同时表现出色。本文介绍了 VITA,这是首个能够同时处理和分析视频、图像、文本和音频模态的开源多模态大语言模型(MLLM),并且具备先进的多模态交互体验。腾讯优图实验室在以下三个关键特性,与现有的开源 MLLM 有所区分:

  • 全方位多模态理解能力:VITA 展示了强大的多语言、视觉和音频理解基础能力,并在多种单模态和多模态基准测试中表现优异。
  • 非唤醒交互:VITA 可以在不需要唤醒词或按钮的情况下被激活,并对环境中的用户音频问题做出响应。
  • 音频打断交互:VITA 能够实时跟踪和筛选外部查询,允许用户随时以新问题打断模型的生成,VITA 将根据新的查询做出相应的响应。

推荐文章: 腾讯优图开源多模态大模型VITA : GPT-4o的简易平替!
论文地址: https://arxiv.org/pdf/2408.05211
Demo地址: https://vita-home.github.io/
开源地址: https://github.com/VITA-MLLM/VITA

(3) mPLUG-Owl3(阿里巴巴多模态大模型)

2024.08.19 阿里的mPLUG系列在多模态大模型领域产出了多项研究工作。从mPLUG-Owl初代模型引入了视觉对齐-语言模型微调的训练模式,到mPLUG-Owl2通过模块化的模态自适应解决模态拉扯,再到mPLUG-DocOwl通过切图建模高分辨率。这一系列模型一直在探索更为高效有效的多模态大语言模型。
  尽管近年包括mPLUG-Owl在内的主流多模态大模型在多种单图任务上取得了一系列进展,当前对于多模态大模型来说,多图长序列输入仍然是一个极具挑战性的场景。如图所示的多模态多轮对话、多模态RAG、长视频理解等实际应用,就对模型的多图长序列理解能力提出了很高的要求。
  现有的支持多图输入的工作,主要存在两个方面的缺陷:LLaVA-Next-Interleave等工作直接将视觉特征与文本序列拼接,在多图长序列输入时会带来很高的推理成本;Flamingo等使用的cross-attention结构,虽然降低了计算成本,但造成了细粒度视觉信息的损失,限制了其在单图和多图场景的性能。
  针对上述问题,阿里通义实验室的研究人员提出通用多模态大模型mPLUG-Owl3,该模型能够在支持多图长序列输入的同时,兼顾性能和效率。为实现这一点,作者提出轻量级的hyper attention模块,实现视觉和语言信息的高效自适应融合。与相似参数规模的模型相比,mPLUG-Owl3在单图、多图、视频等多达14个benchmark上表现出SOTA性能

推荐文章: 阿里开源通用多模态大模型mPLUG-Owl3:迈向多图长序列理解
论文名称: mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
论文地址: https://arxiv.org/pdf/2408.04840
开源地址:
GitHub: https://github.com/X-PLUG/mPLUG-Owl/
HF:https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
魔搭:https://modelscope.cn/studios/iic/mPLUG-Owl3

  • 10
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值