【AIGC半月报】AIGC大模型启元：2024.07（上）

置顶 LeeZhao@

已于 2024-07-09 18:27:58 修改

阅读量273

点赞数 10

文章标签： AIGC 人工智能 AI Agent

于 2024-07-02 17:39:53 首次发布

本文链接：https://blog.csdn.net/qq_36722887/article/details/140132681

版权

AIGC大模型启元：2024.07（上）

(1) AIGVBench-T2V（文生视频基准测评）

2024.07.02 目前已经存在一些英文的文生视频基准，如VBench、FETV和EvalCrafter，可以用于评测英文文生视频模型的性能。然而，针对中文文生视频大模型的基准测试还比较缺乏，无法直接评估中文文生视频大模型的质量和效果。现如今，中文语境下的文生视频技术正处在快速发展的阶段，亟需建立一个专门针对中文大模型的基准测试。
　　为了推动视频生成领域的发展，量化视频生成模型的性能与用户体验，指导视频生成工具的落地与推广，第三方大模型测评机构SuperCLUE，推出AIGV视频生成能力测评基准AIGVBench。
　　其中针对于文生视频的能力评估，我们推出了中文专用的多层次文生视频基准测评AIGVBench-T2V。AIGVBench-T2V旨在通过一系列详尽的评估指标和测试数据集，全面衡量中文视频生成模型在生成质量、多样性及一致性等方面的性能。其设计融合了国际基准的架构及针对中文环境的特殊需求，旨在促进中文视频生成领域的研究、开发与技术创新。

推荐文章： AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3
排行榜地址： www.SuperCLUEai.com
官网地址： www.CLUEbenchmarks.com
AIGVBench登录页： www.AIGVBench.com

(2) Gen-3 Alpha（Runway）

2024.07.03 知名生成式AI平台Runway在其官方网站宣布推出新一代文生视频模型——Gen-3 Alpha。
　　Gen-3 Alpha 是由 Runway 推出的新一代视频生成模型，它在保真度、一致性、运动和速度方面都有所改进，并且能够进行精细的时间控制。以下是 Gen-3 Alpha 的主要特点和规格信息：

高保真度和一致性：Gen-3 Alpha 生成的视频具有更高的视觉保真度和时间一致性，能够生成表达丰富、逼真的人类角色，提供广泛的动作、手势和情绪，开启了新的叙事机会。
精确的关键帧设置和场景过渡：该模型在运动和连贯性方面有显著提升，支持多种高级控制模式，包括运动画笔 (Motion Brush)、高级摄像头控制 (Advanced Camera Controls) 和导演模式 (Director Mode)。
平台和规格信息：
- 费用：每秒10积分
- 支持时长：5秒（50积分），10秒（100积分）
- 无限计划中的探索模式：有
- 平台可用性：Web
- 支持输入：文本，图片（即将推出）
- 文本字符限制：500字符
- 支持分辨率：SD (720p)
- 支持的纵横比：16:9 (1280x768)
- 帧率 (FPS)：24fps

通过这些特性和规格，Gen-3 Alpha 提供了更高质量的视频生成能力，适用于电影制作、广告、游戏等多个领域，极大地提升了创作者的创作自由度和表达能力。

推荐文章： Runway推出GEN3 Alpha模型！

(3) Step-2、Step-1.5V、Step-1X（阶跃星辰开源大模型）

2024.07.04 阶跃星辰在今年 WAIC 期间发布万亿参数 MoE 大模型 ——Step-2 正式版、千亿参数的多模态大模型 ——Step-1.5V，以及图像生成大模型 Step-1X。
　　Step-2 这个模型最早是在 3 月份和阶跃星辰公司一起亮相的，当时还是预览版。如今，它进化出了全面逼近 GPT-4 体感的数理逻辑、编程、中文知识、英文知识、指令跟随等能力。
　　有了这个模型做基础，阶跃星辰进一步训练出了多模态大模型 Step-1.5V。它不仅拥有强大的感知和视频理解能力，还能够根据图像内容进行各类高级推理，如解答数学题、编写代码、创作诗歌等。
　　《AI + 大闹天宫》的图像生成则是由另一个模型 ——Step-1X 来完成的。从生成结果中，我们能感觉到这个模型针对中国元素所做的深度优化。此外，它还有良好的语义对齐和指令遵循能力。

推荐文章： 揭秘：阶跃星辰万亿MoE+多模态大模型矩阵亮相

(4) InternVL 2.0 “书生·万象”（上海人工智能实验室）

2024.07.04 上海人工智能实验室的InternVL系列从视觉生根，进化为书生·万象多模态大模型。万象，代表作者对多模态大模型的愿景，即理解真实世界一切事物和景象，实现全模态全任务的通用智能。它涵盖图像，视频，文字，语音、三维点云等5种模态，首创渐进式对齐训练，实现了首个与大语言模型对齐的视觉基础模型，通过模型”从小到大”、数据”从粗到精"的渐进式的训练策略，以1/5成本完成了大模型的训练。它在有限资源下展现出卓越的性能表现，横扫国内外开源大模型，媲美国际顶尖商业模型，同时也是国内首个在MMMU（多学科问答）上突破60的模型。它在数学、图表分析、OCR等任务中表现优异，具备处理复杂多模态任务、真实世界感知方面的强大能力，是当之无愧的最强多模态开源大模型。
　　InternVL 2.0开源了多种指令微调的模型，参数从 2B 到 108B 不等，最大参数量的模型（pro版本）需要在官网申请api试用。
　　与最先进的开源多模态大语言模型相比，InternVL 2.0 超越了大多数开源模型。它在各种能力上表现出与闭源商业模型相媲美的竞争力，包括文档和图表理解、信息图表问答、场景文本理解和 OCR 任务、科学和数学问题解决，以及文化理解和综合多模态能力。
　　InternVL 2.0 使用 8k 上下文窗口进行训练，训练数据包含长文本、多图和视频数据，与 InternVL 1.5 相比，其处理这些类型输入的能力显著提高。

亮点
相比于InternVL 1.5，可以看出有一些改变：

InternVL 2.0 更好地支持多轮对话、和多图输入的对话，可见训练上下文长度有所提升（8k上下文）
更好地支持了更多领域数据的输入（比如医疗影像分析能力），以及支持了更多模态的输入（比如视频输入）
多任务输出：支持数百种视觉代理任务的输出，比如更好地支持了Grounding任务（定位信息）
渐进式训练方法：引入了一种渐进式对齐训练策略，实现了第一个与大型语言模型原生对齐的视觉基础模型。通过采用渐进式训练策略，即模型从小规模逐渐扩展到大规模，数据从粗糙到精细逐步细化，以相对较低的成本完成了大型模型的训练。这种方法在资源有限的情况下展示了卓越的性能。

(5) CodeGeeX4-ALL-9B（智谱AI）

2024.07.05 CodeGeeX4-ALL-9B 作为最新一代 CodeGeeX4 系列模型的开源版本，在 GLM-4 强大语言能力的基础上继续迭代，大幅增强代码生成能力。使用 CodeGeeX4-ALL-9B 单一模型，即可支持代码补全和生成、代码解释器、联网搜索、工具调用、仓库级长代码问答及生成等全面功能，覆盖了编程开发的各种场景。
　　CodeGeeX4-ALL-9B 在多个权威代码能力评测集，如 NaturalCodeBench、BigCodeBench 上都取得了极具竞争力的表现，是百亿参数量级以下性能最强的模型，甚至超过数倍规模的通用模型，在推理性能和模型效果上得到最佳平衡。

(6) TTT（全新LLM架构）

2024.07.09 一种全新的大语言模型（LLM）架构有望代替至今在 AI 领域如日中天的 Transformer，性能也比 Mamba 更好。本周一，有关 Test-Time Training（TTT）的论文成为了人工智能社区热议的话题。
　　该研究的作者来自斯坦福大学、加州大学伯克利分校、加州大学圣迭戈分校和 Meta。他们设计了一种新架构 TTT，用机器学习模型取代了 RNN 的隐藏状态。该模型通过输入 token 的实际梯度下降来压缩上下文。
　　在机器学习模型中，TTT 层直接取代 Attention，并通过表达性记忆解锁线性复杂性架构，使我们能够在上下文中训练具有数百万（有时是数十亿）个 token 的 LLM。
　　作者在 125M 到 1.3B 参数规模的大模型上进行了一系列对比发现，TTT-Linear 和 TTT-MLP 均能匹敌或击败最强大的 Transformers 和 Mamba 架构方法。
　　TTT 层作为一种新的信息压缩和模型记忆机制，可以简单地直接替代 Transformer 中的自注意力层。