【AIGC半月报】AIGC大模型启元：2024.03（下）

最新推荐文章于 2024-07-19 15:27:09 发布

LeeZhao@

最新推荐文章于 2024-07-19 15:27:09 发布

阅读量736

点赞数 23

分类专栏： AIGC 文章标签： AIGC 人工智能

本文链接：https://blog.csdn.net/qq_36722887/article/details/138397372

版权

AIGC 专栏收录该内容

17 篇文章 4 订阅

订阅专栏

AIGC大模型启元：2024.03（下）

(1) Open-Sora 1.0（文生视频大模型）

2024.03.17 Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型「Open-Sora 1.0」，涵盖了整个训练流程，包括数据处理、所有训练细节和模型权重，携手全球 AI 热爱者共同推进视频创作的新纪元。
　　Colossal-AI 团队深入解读 Sora 复现方案的多个关键维度，包括模型架构设计、训练复现方案、数据预处理、模型生成效果展示以及高效训练优化策略。

推荐文章： 没等来OpenAI，等来了Open-Sora全面开源
GitHub仓库地址： https://github.com/hpcaitech/Open-Sora

(2) Grok-1（马斯克开源大语言模型）

2024.03.17 马斯克宣布开源Grok-1，这使得Grok-1成为当前参数量最大的开源大语言模型，拥有3140亿参数，远超OpenAI GPT-3.5的1750亿。有意思的是，Grok-1宣布开源的封面图为Midjourney生成，可谓“AI helps AI”。
　　Grok-1是一个规模较大（314B参数）的模型，需要有足够GPU内存的机器才能使用示例代码测试模型。网友表示这可能需要一台拥有628 GB GPU内存的机器。此外，该存储库中MoE层的实现效率并不高，之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。
　　目前已开源的热门大模型包括Meta的Llama2、法国的Mistral等。通常来说，发布开源模型有助于社区展开大规模的测试和反馈，意味着模型本身的迭代速度也能加快。

推荐文章： 马斯克用行动反击开源自家顶级大模型压力给到OpenAI
GitHub仓库地址： https://github.com/xai-org/grok-1
官方博客： https://x.ai/blog/grok-os
模型磁力链接： https://academictorrents.com/details/5f96d43576e3d386c9ba65b883210a393b68210e

(3) Blackwell GB200（英伟达新一代AI加速卡）

2024.03.18 英伟达公司于2024年的GTC大会上宣布了下一代人工智能超级计算机的问世，同时推出了备受业界瞩目的AI加速卡——Blackwell GB200。这款加速卡的发布，标志着人工智能领域又迈出了坚实的一步，其强大的性能、成本及能耗的突破，预计将引领AI技术的全新发展。
　　Blackwell GB200采用了英伟达新一代AI图形处理器架构Blackwell，相较于前一代Hopper架构，其性能实现了巨大的飞跃。GB200由两个B200 Blackwell GPU和一个基于Arm的Grace CPU组成，这种独特的组合使得其在处理大语言模型推理任务时，性能比H100提升高达30倍。

(4) Kimi（Moonshot AI 智能助手）

2024.03.18 国内 AI 创业公司月之暗面（Moonshot AI）宣布在大模型长上下文窗口技术上取得新的突破，Kimi智能助手已支持200万字超长无损上下文，短短五个月内“长文本”输入量提升10倍，并于即日起开启产品“内测”。
　　月之暗面创始人杨植麟博士表示，通往通用人工智能（AGI）的话，无损的长上下文将会是一个很关键的基础技术。历史上所有的模型架构演进，本质上都是在提升有效的、无损的上下文长度。上下文长度可能存在摩尔定律，但需要同时优化长度和无损压缩水平两个指标，才是有意义的规模化。
　　月之暗面联合创始人周昕宇则向钛媒体App透露，月之暗面即将在今年内推出自研的多模态大模型。同时，商业化也在快速推进。

(5) Suno v3（音乐ChatGPT时刻）

2024.03.24 AI初创公司Suno AI重磅推出了第一款可制作「广播级」的音乐生成模型——V3，一时间在网上掀起轩然大波。仅用几秒的时间，V3便可以创作出2分钟的完整歌曲。为了激发人们的创作灵感，Suno v3还新增了更丰富的音乐风格和流派选项，比如古典音乐、爵士乐、Hiphop、电子等新潮曲风。

(6) Mora（Sora的通才视频生成模型）

2024.03.24 理海大学联手微软团队一种新型的多AI智能体框架———Mora。Mora更像是Sora的通才视频生成。通过整合多个SOTA的视觉AI智能体，来复现Sora展示的通用视频生成能力。具体来说，Mora能够利用多个视觉智能体，在多种任务中成功模拟Sora的视频生成能力，包括：

文本到视频生成
基于文本条件的图像到视频生成
扩展已生成视频
视频到视频编辑
拼接视频
模拟数字世界

(7) Mistral 7B v0.2

2024.03.24 这次开源的 Mistral 7B v0.2 Base Model ，是 Mistral-7B-Instruct-v0.2 背后的原始预训练模型，后者属于该公司的「Mistral Tiny」系列。
此次更新主要包括三个方面：

将 8K 上下文提到了 32K；
Rope Theta = 1e6；
取消滑动窗口。

(8) DBRX（LLM）

2024.03.28 超级独角兽Databricks重磅推出1320亿参数的开源模型——DBRX。全球最强开源大模型王座易主，超越了Llama 2、Mixtral和Grok-1。MoE又立大功！这个过程只用了2个月，1000万美元，和3100块H100。采用了细粒度MoE架构，而且每次输入仅使用360亿参数，实现了更快的每秒token吞吐量。

(9) Grok-1.5（LLM）

2024.03.29 马斯克发布Grok-1.5，强化推理和上下文，HumanEval得分超GPT-4继开源 Grok-1 后，xAI 刚刚官方发布了他们的最新模型 Grok-1.5。据介绍，Grok-1.5 能够进行长语境理解和高级推理，并将于近日在 xAI 平台上向早期测试者和现有 Grok 用户开放。
Grok-1.5 最显著的改进之一是其在编码和数学相关任务中的表现。在给出的测试结果中，Grok-1.5 在 MATH 基准测试中取得了 50.6% 的得分，在 GSM8K 基准测试中取得了 90% 的得分。此外，在评估代码生成和解决问题能力的 HumanEval 基准测试中，Grok-1.5 获得了 74.1% 的高分，超过了 GPT-4。

(10) Voice Engine（OpenAI音频模型）

2024.03.30 OpenAI在官网首次展示了全新自定义音频模型“Voice Engine”。用户只需要提供15秒左右的参考声音，通过Voice Engine就能生成几乎和原音一模一样的全新音频，在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。
除了能合成音频之外，OpenAI还展示了Voice Engine很多其他际商业用途，例如，一位失去声音表达能力的女孩，在Voice Engine帮助下能像以前一样正常发音说话。

(11) Jamba（Mamba + Transformer）

2024.03.29 AI21 Labs 推出并开源了一种名为「Jamba」的新方法，在多个基准上超越了 transformer。
　　Mamba 的 SSM 架构可以很好地解决 transformer 的内存资源和上下文问题。然而，Mamba 方法很难提供与 transformer 模型相同的输出水平。
　　Jamba 将基于结构化状态空间模型 (SSM) 的 Mamba 模型与 transformer 架构相结合，旨在将 SSM 和 transformer 的最佳属性结合在一起。
　　Jamba 模型具有以下特点：