【AIGC半月报】AIGC大模型启元:2024.07(上)

(1) AIGVBench-T2V(文生视频基准测评)

2024.07.02 目前已经存在一些英文的文生视频基准,如VBench、FETV和EvalCrafter,可以用于评测英文文生视频模型的性能。然而,针对中文文生视频大模型的基准测试还比较缺乏,无法直接评估中文文生视频大模型的质量和效果。现如今,中文语境下的文生视频技术正处在快速发展的阶段,亟需建立一个专门针对中文大模型的基准测试。
  为了推动视频生成领域的发展,量化视频生成模型的性能与用户体验,指导视频生成工具的落地与推广,第三方大模型测评机构SuperCLUE,推出AIGV视频生成能力测评基准AIGVBench。
  其中针对于文生视频的能力评估,我们推出了中文专用的多层次文生视频基准测评AIGVBench-T2V。AIGVBench-T2V旨在通过一系列详尽的评估指标和测试数据集,全面衡量中文视频生成模型在生成质量、多样性及一致性等方面的性能。其设计融合了国际基准的架构及针对中文环境的特殊需求,旨在促进中文视频生成领域的研究、开发与技术创新。

推荐文章: AIGVBench文生视频测评首期结果公布,1000个AI视频对比,最高72.9分,Luma仅第3
排行榜地址: www.SuperCLUEai.com
官网地址: www.CLUEbenchmarks.com
AIGVBench登录页: www.AIGVBench.com

(2) Gen-3 Alpha(Runway)

2024.07.03 知名生成式AI平台Runway在其官方网站宣布推出新一代文生视频模型——Gen-3 Alpha。
  Gen-3 Alpha 是由 Runway 推出的新一代视频生成模型,它在保真度、一致性、运动和速度方面都有所改进,并且能够进行精细的时间控制。以下是 Gen-3 Alpha 的主要特点和规格信息:

  1. 高保真度和一致性:Gen-3 Alpha 生成的视频具有更高的视觉保真度和时间一致性,能够生成表达丰富、逼真的人类角色,提供广泛的动作、手势和情绪,开启了新的叙事机会。
  2. 精确的关键帧设置和场景过渡:该模型在运动和连贯性方面有显著提升,支持多种高级控制模式,包括运动画笔 (Motion Brush)、高级摄像头控制 (Advanced Camera Controls) 和导演模式 (Director Mode)。
  3. 平台和规格信息:
    • 费用:每秒10积分
    • 支持时长:5秒(50积分),10秒(100积分)
    • 无限计划中的探索模式:有
    • 平台可用性:Web
    • 支持输入:文本,图片(即将推出)
    • 文本字符限制:500字符
    • 支持分辨率:SD (720p)
    • 支持的纵横比:16:9 (1280x768)
    • 帧率 (FPS):24fps

通过这些特性和规格,Gen-3 Alpha 提供了更高质量的视频生成能力,适用于电影制作、广告、游戏等多个领域,极大地提升了创作者的创作自由度和表达能力。

推荐文章: Runway推出GEN3 Alpha模型!

(3) Step-2、Step-1.5V、Step-1X(阶跃星辰开源大模型)

2024.07.04 阶跃星辰在今年 WAIC 期间发布万亿参数 MoE 大模型 ——Step-2 正式版、千亿参数的多模态大模型 ——Step-1.5V,以及图像生成大模型 Step-1X。
  Step-2 这个模型最早是在 3 月份和阶跃星辰公司一起亮相的,当时还是预览版。如今,它进化出了全面逼近 GPT-4 体感的数理逻辑、编程、中文知识、英文知识、指令跟随等能力。
  有了这个模型做基础,阶跃星辰进一步训练出了多模态大模型 Step-1.5V。它不仅拥有强大的感知和视频理解能力,还能够根据图像内容进行各类高级推理,如解答数学题、编写代码、创作诗歌等。
  《AI + 大闹天宫》的图像生成则是由另一个模型 ——Step-1X 来完成的。从生成结果中,我们能感觉到这个模型针对中国元素所做的深度优化。此外,它还有良好的语义对齐和指令遵循能力。

推荐文章: 揭秘:阶跃星辰万亿MoE+多模态大模型矩阵亮相

(4) InternVL 2.0 “书生·万象”(上海人工智能实验室)

2024.07.04 上海人工智能实验室的InternVL系列从视觉生根,进化为书生·万象多模态大模型。万象,代表作者对多模态大模型的愿景,即理解真实世界一切事物和景象,实现全模态全任务的通用智能。它涵盖图像,视频,文字,语音、三维点云等5种模态,首创渐进式对齐训练,实现了首个与大语言模型对齐的视觉基础模型,通过模型”从小到大”、数据”从粗到精"的渐进式的训练策略,以1/5成本完成了大模型的训练。它在有限资源下展现出卓越的性能表现,横扫国内外开源大模型,媲美国际顶尖商业模型,同时也是国内首个在MMMU(多学科问答)上突破60的模型。它在数学、图表分析、OCR等任务中表现优异,具备处理复杂多模态任务、真实世界感知方面的强大能力,是当之无愧的最强多模态开源大模型。
  InternVL 2.0开源了多种指令微调的模型,参数从 2B 到 108B 不等,最大参数量的模型(pro版本)需要在官网申请api试用。
  与最先进的开源多模态大语言模型相比,InternVL 2.0 超越了大多数开源模型。它在各种能力上表现出与闭源商业模型相媲美的竞争力,包括文档和图表理解、信息图表问答、场景文本理解和 OCR 任务、科学和数学问题解决,以及文化理解和综合多模态能力。
  InternVL 2.0 使用 8k 上下文窗口进行训练,训练数据包含长文本、多图和视频数据,与 InternVL 1.5 相比,其处理这些类型输入的能力显著提高。

亮点
相比于InternVL 1.5,可以看出有一些改变:

  • InternVL 2.0 更好地支持多轮对话、和多图输入的对话,可见训练上下文长度有所提升(8k上下文)
  • 更好地支持了更多领域数据的输入(比如医疗影像分析能力),以及支持了更多模态的输入(比如视频输入)
  • 多任务输出:支持数百种视觉代理任务的输出,比如更好地支持了Grounding任务(定位信息)
  • 渐进式训练方法:引入了一种渐进式对齐训练策略,实现了第一个与大型语言模型原生对齐的视觉基础模型。通过采用渐进式训练策略,即模型从小规模逐渐扩展到大规模,数据从粗糙到精细逐步细化,以相对较低的成本完成了大型模型的训练。这种方法在资源有限的情况下展示了卓越的性能。

推荐文章: InternVL 2.0 “书生·万象” :探寻多模态大模型的能力边界
官方地址: https://internvl.intern-ai.org.cn/
Github: https://github.com/OpenGVLab/InternVL
Huggingface: https://huggingface.co/collections/OpenGVLab/internvl-20-667d3961ab5eb12c7ed1463e

(5) CodeGeeX4-ALL-9B(智谱AI)

2024.07.05 CodeGeeX4-ALL-9B 作为最新一代 CodeGeeX4 系列模型的开源版本,在 GLM-4 强大语言能力的基础上继续迭代,大幅增强代码生成能力。使用 CodeGeeX4-ALL-9B 单一模型,即可支持代码补全和生成、代码解释器、联网搜索、工具调用、仓库级长代码问答及生成等全面功能,覆盖了编程开发的各种场景。
  CodeGeeX4-ALL-9B 在多个权威代码能力评测集,如 NaturalCodeBench、BigCodeBench 上都取得了极具竞争力的表现,是百亿参数量级以下性能最强的模型,甚至超过数倍规模的通用模型,在推理性能和模型效果上得到最佳平衡。

推荐文章: CodeGeeX第四代模型正式发布,同期开源!
GitHub: https://github.com/THUDM/CodeGeeX4
HuggingFace: https://huggingface.co/THUDM/codegeex4-all-9b
ModelScope: https://modelscope.cn/models/ZhipuAI/codegeex4-all-9b
WiseModel: https://wisemodel.cn/models/ZhipuAI/codegeex4-all-9b

(6) TTT(全新LLM架构)

2024.07.09 一种全新的大语言模型(LLM)架构有望代替至今在 AI 领域如日中天的 Transformer,性能也比 Mamba 更好。本周一,有关 Test-Time Training(TTT)的论文成为了人工智能社区热议的话题。
  该研究的作者来自斯坦福大学、加州大学伯克利分校、加州大学圣迭戈分校和 Meta。他们设计了一种新架构 TTT,用机器学习模型取代了 RNN 的隐藏状态。该模型通过输入 token 的实际梯度下降来压缩上下文。
  在机器学习模型中,TTT 层直接取代 Attention,并通过表达性记忆解锁线性复杂性架构,使我们能够在上下文中训练具有数百万(有时是数十亿)个 token 的 LLM。
  作者在 125M 到 1.3B 参数规模的大模型上进行了一系列对比发现,TTT-Linear 和 TTT-MLP 均能匹敌或击败最强大的 Transformers 和 Mamba 架构方法。
  TTT 层作为一种新的信息压缩和模型记忆机制,可以简单地直接替代 Transformer 中的自注意力层。

推荐文章: 彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态
论文链接: https://arxiv.org/abs/2407.04620

  • 10
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值