【AIGC半月报】AIGC大模型启元：2024.08（下）_英伟达开源新大模型:训练数据减少40倍,算力节省1.8倍-CSDN博客

本文链接：https://blog.csdn.net/qq_36722887/article/details/141368064

【AIGC半月报】AIGC大模型启元：2024.08（下））

(1) Nemotron-4-Minitron（Nvidia LLM）

2024.08.16 全球AI领导者英伟达（Nvidia）开源了最新大模型Nemotron-4-Minitron-4B和Nemotron-4-Minitron-8B。
　　据悉这两个模型是基于Meta开源的Llama-3.1 8B，但英伟达使用了两种高效的训练方法结构化剪枝和知识蒸馏。
　　相比从头训练，每个额外模型所需的训练token数据更少，仅需大约1000亿token，最多减少40倍，算力成本可节省1.8倍。性能却依然媲美Llama-3.1 8B、Mistral 7B、Gemma 7B等知名模型，而这些模型是在高达15万亿token数据训练而成。

(2) VITA（腾讯优图多模态大模型）

2024.08.16 GPT-4o 的卓越多模态能力和用户交互体验在实际应用中非常重要，但没有开源模型在这两个领域同时表现出色。本文介绍了 VITA，这是首个能够同时处理和分析视频、图像、文本和音频模态的开源多模态大语言模型（MLLM），并且具备先进的多模态交互体验。腾讯优图实验室在以下三个关键特性，与现有的开源 MLLM 有所区分：

全方位多模态理解能力：VITA 展示了强大的多语言、视觉和音频理解基础能力，并在多种单模态和多模态基准测试中表现优异。
非唤醒交互：VITA 可以在不需要唤醒词或按钮的情况下被激活，并对环境中的用户音频问题做出响应。
音频打断交互：VITA 能够实时跟踪和筛选外部查询，允许用户随时以新问题打断模型的生成，VITA 将根据新的查询做出相应的响应。

推荐文章： 腾讯优图开源多模态大模型VITA : GPT-4o的简易平替！
论文地址： https://arxiv.org/pdf/2408.05211
Demo地址： https://vita-home.github.io/
开源地址： https://github.com/VITA-MLLM/VITA

(3) mPLUG-Owl3（阿里巴巴多模态大模型）

2024.08.19 阿里的mPLUG系列在多模态大模型领域产出了多项研究工作。从mPLUG-Owl初代模型引入了视觉对齐-语言模型微调的训练模式，到mPLUG-Owl2通过模块化的模态自适应解决模态拉扯，再到mPLUG-DocOwl通过切图建模高分辨率。这一系列模型一直在探索更为高效有效的多模态大语言模型。
　　尽管近年包括mPLUG-Owl在内的主流多模态大模型在多种单图任务上取得了一系列进展，当前对于多模态大模型来说，多图长序列输入仍然是一个极具挑战性的场景。如图所示的多模态多轮对话、多模态RAG、长视频理解等实际应用，就对模型的多图长序列理解能力提出了很高的要求。
　　现有的支持多图输入的工作，主要存在两个方面的缺陷：LLaVA-Next-Interleave等工作直接将视觉特征与文本序列拼接，在多图长序列输入时会带来很高的推理成本；Flamingo等使用的cross-attention结构，虽然降低了计算成本，但造成了细粒度视觉信息的损失，限制了其在单图和多图场景的性能。
　　针对上述问题，阿里通义实验室的研究人员提出通用多模态大模型mPLUG-Owl3，该模型能够在支持多图长序列输入的同时，兼顾性能和效率。为实现这一点，作者提出轻量级的hyper attention模块，实现视觉和语言信息的高效自适应融合。与相似参数规模的模型相比，mPLUG-Owl3在单图、多图、视频等多达14个benchmark上表现出SOTA性能

推荐文章： 阿里开源通用多模态大模型mPLUG-Owl3：迈向多图长序列理解
论文名称： mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
论文地址： https://arxiv.org/pdf/2408.04840
开源地址：
GitHub: https://github.com/X-PLUG/mPLUG-Owl/
HF：https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
魔搭：https://modelscope.cn/studios/iic/mPLUG-Owl3

(4) ADAS（自动化设计智能体系统）

2024.08.20 Agent智能体系统正在作为通用工具被广泛研究和应用，解决复杂问题通常需要由多个组件组成的复合智能体系统，而手工设计的解决方案最终会被学习到的更高效的解决方案所取代。
　　为此，提出了自动化设计智能体系统（ADAS：Automated Design of Agentic Systems，已开源）的新研究领域，目标是自动创建强大的智能体系统设计。
通过代码定义整个智能体系统，并由一个“元Agent”自动发现新的智能体，理论上允许ADAS算法发现任何可能的构建块和智能体系统。
　　自动化设计智能体系统（Automated Design of Agentic Systems）：
ADAS的定义和目标
ADAS旨在自动发明新的构建块，并设计功能强大的智能体系统。智能体系统涉及使用基础模型（Foundation Models，简称FMs）作为模块，通过规划、使用工具和执行多步骤的迭代处理来完成任务。
ADAS的三个关键组成部分
自动化智能体系统设计（ADAS）的三个关键组成部分。搜索空间决定了ADAS中可以表示哪些Agent系统。搜索算法指定了ADAS方法如何探索搜索空间。评估函数定义了如何根据目标目标（如性能）评估候选Agent。

搜索空间（Search Space）：定义了ADAS中可以表示哪些智能体系统。例如，一些研究只变异智能体的文本提示，而其他组件（如控制流）保持不变。
搜索算法（Search Algorithm）：指定了ADAS方法如何探索搜索空间。由于搜索空间通常非常大甚至无界，需要考虑探索与利用的权衡。
评估函数（Evaluation Function）：根据ADAS算法的应用，可能考虑不同的目标来优化，如性能、成本、延迟或智能体的安全性。评估函数定义了如何在这些目标上评估候选智能体。

推荐文章： 极限套娃，Agent自动设计Agentic系统！
论文地址： https://arxiv.org/pdf/2408.08435
开源地址： https://github.com/ShengranHu/ADAS

(5) Phi-3.5（微软小型LLM）

2024.08.21 微软继今年4月推出Phi-3系列小型语言模型后，又一鼓作气三连发布并开源其「小而美」系列 Phi-3.5模型！
本次发布的三个模型各有特色：
Mini型：Phi-3.5-mini-instruct(3.8B)

Phi-3.5 mini 具有 38 亿个参数，基于Phi-3 的数据集（合成数据和经过筛选的公开网站）构建，重点关注高质量、推理密集的数据。该模型属于 Phi-3 模型系列，支持 128K 令牌上下文长度。该模型经过了严格的增强过程，结合了监督微调、近端策略优化和直接偏好优化，以确保精确遵守指令和强大的安全措施。Phi-3.5 mini 在中文场景有所增强，但是受限于模型的大小，依然会有较多的事实错误，通过RAG的方式可以有效降低错误。

MoE型：Phi-3.5-MoE-instruct (16x3.8B)
Phi-3.5-MoE-instruct是一个MoE模型，有 16x3.8B 个参数，使用 2 位专家时有 6.6B 个活动参数。该模型使用词汇量为 32,064 的标记器。Phi-3.5-MoE-instruct在推理能力上大大增强（尤其是数学和逻辑），也非常适用于function call的场景。

多模态：Phi-3.5-vision-instruct (4.2B)
Phi-3.5-vision-instruct 多模态版本可支持 128K 上下文长度（以 token 为单位）有 4.2B 参数，主要包含图像编码器和 Phi-3 Mini 语言模型。本次Phi-3.5-vision-instruct 支持多图理解，在如下场景上有较好的效果：

一般图像理解；
光学字符识别 (OCR)
图表和表格理解；
多幅图像比较；
多图像或视频片段摘要

推荐文章： 多图理解，更懂中文，支持function call的Phi-3.5来了！
模型地址：

Phi-3.5-mini-instruct：https://modelscope.cn/models/LLM-Research/Phi-3.5-mini-instruct
Phi-3.5-MoE-instruct：https://modelscope.cn/models/LLM-Research/Phi-3.5-MoE-instruct
Phi-3.5-vision-instruct ：https://modelscope.cn/models/LLM-Research/Phi-3.5-vision-instruct
Phi-3.5-mini-instruct-GGUF：https://modelscope.cn/models/LLM-Research/Phi-3.5-mini-instruct-GGUF

开源地址： https://github.com/microsoft/Phi-3CookBook

(6) Transfusion（Meta多模态架构-Diffusion+Transformer）

2024.08.24 Meta最新发布的Transfusion，能够训练生成文本和图像的统一模型了！完美融合Transformer和扩散领域之后，语言模型和图像大一统，又近了一步。也就是说，真正的多模态AI模型，可能很快就要来了！
Transformer和Diffusion，终于有了一次出色的融合。
自此，语言模型和图像生成大一统的时代，也就不远了！
这背后，正是Meta最近发布的Transfusion——一种训练能够生成文本和图像模型的统一方法。

(7) Jamba-1.5（Transformer-Mamba）

2024.08.27 Jamba-1.5，基于Jamba架构的新型指令调优大型语言模型。Jamba是一种混合Transformer-Mamba专家混合架构，能够在不同上下文长度下提供高吞吐量和低内存使用，同时保持与Transformer模型相同或更好的质量。
　　论文发布了两种模型尺寸：Jamba-1.5-Large，具有940亿活跃参数，以及Jamba-1.5-Mini，具有120亿活跃参数。这两种模型都针对多种对话和指令遵循能力进行了微调，并且具有256Ktoken的有效上下文长度，是开放权重模型中最大的。
　　为了支持成本效益高的推理，论文引入了ExpertsInt8，一种新颖的量化技术，允许在处理256K token上下文时，将Jamba-1.5-Large适配到具有8张80GB GPU的机器上，而不损失质量。在学术和聊天机器人基准测试中评估时，Jamba模型取得了优异的成绩，同时提供了高吞吐量，并在长上下文基准测试中超越了其他开放权重模型。

推荐文章： Jamba-1.5：大规模混合Transformer-Mamba模型
论文链接： https://arxiv.org/pdf/2408.12570
模型地址： https://huggingface.co/ai21labs

(8) Qwen2-VL（阿里对标GPT-4o）

2024.08.30 阿里巴巴开源了最新视觉多模态模型Qwen2-VL，根据测试数据显示，其72B模型在大部分指标超过了OpenAI的GPT-4o，Anthropic的Claude3.5-Sonnet等著名闭源模型，成为目前最强多模态模型之一。
　　Qwen2-VL支持中文、英文、日文、韩文等众多语言，可以在 Apache 2.0 协议下进行商业化使用。同时阿里发布了 Qwen2-VL-72B的API，帮助开发者增强或开发多模态功能的生成式AI应用。
　　Qwen2-VL是基于Qwen2开发而成，相比第一代Qwen-VL有以下特色功能。
可理解20分钟以上的长视频：Qwen2-VL 可理解长视频，并将其用于基于视频的问答、对话和内容创作等应用中。
例如，对于一部长达两个小时的纪录片，用户询问其中某个特定历史事件的具体时间和背景，Qwen2-VL 可以快速检索视频内容，从复杂的影像和解说中提取出关键信息，为用户提供详细准确的回答。

Qwen2-VL还可以根据长视频的内容进行故事续写、影评撰写或者创意改编。例如，一个 30 分钟的科普长视频，Qwen2-VL 可以提取其中的核心知识，创作出一篇通俗易懂的科普文章，或者以视频中的某个情节为灵感构思出一部全新的小说。
可操作手机和机器人的视觉智能体：借助复杂推理和决策的能力，Qwen2-VL 可集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作。
能读懂不同分辨率和不同长宽比的图片：Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA等视觉理解基准测试中取得了全球领先的表现。
性能评估方面，阿里从大学题目、数学、文档表格多语言文字图像的理解、通用场景下的问答、视频理解、Agent进行了综合测试。

(9) GLM-4-Plus（智谱AI）

2024.08.29 智谱AI 在 KDD 2024 现场，重磅推出了新一代全自研基座大模型 GLM-4-Plus、图像/视频理解模型 GLM-4V-Plus 和文生图模型 CogView-3-Plus，继续瞄准通用人工智能（AGI）。
模型主要亮点如下：

语言基座模型 GLM-4-Plus：在语言理解、指令遵循、长文本处理等方面性能得到全面提升，保持了国际领先水平。
文生图模型 CogView-3-Plus：具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能。
图像/视频理解模型 GLM-4V-Plus：具备卓越的图像理解能力，并具备基于时间感知的视频理解能力。该模型将上线智谱大模型开放平台（bigmodel.cn），成为国内首个通用视频理解模型 API。

据介绍，GLM-4-Plus 使用了大量模型辅助构造高质量合成数据以提升模型性能；利用 PPO 有效有效提升模型推理（数学、代码算法题等）表现，更好地反映人类偏好。

在语言文本能力方面，GLM-4-Plus 和 GPT-4o 及 Llama 3.1 405B 相当。