每周AI新闻（2024年第12周）Kimi支持200万字上下文|Stability AI CEO及核心团队集体离职|Grok大模型开源|Suno发布音乐模型v3-CSDN博客

本文链接：https://blog.csdn.net/HoyingHan/article/details/136991895

本周AI新闻亮点包括英伟达发布的BlackwellGPU及企业级AI服务，谷歌搜索的AI概述功能，以及各大科技公司如微软、阿里和OpenAI的新技术发布。同时，AI独角兽如StabilityAI和马斯克的xAI也展示了其模型的突破。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这里是陌小北，一个正在研究硅基生命的碳基生命。正在努力成为写代码的里面背诗最多的，背诗的里面最会写段子的，写段子的里面代码写得最好的…厨子。

每周日解读每周AI大事件。

欢迎关注同名公众号【陌北有棵树】，关注AI最新技术与资讯。

大厂动向

英伟达发布AI旗舰芯片Blackwell GPU

3月19日凌晨，英伟达创始人兼CEO黄仁勋在圣何塞发布Blackwell GPU、Blackwell平台“全家桶”。并且，他还推出了数十个企业级生成式AI微服务。同时，他宣布台积电、新思科技将突破性的光刻计算平台cuLitho投入生产。在人形机器人方面，英伟达发布人形机器人基础模型Project GR00T、新款人形机器人计算机Jetson Thor，对Isaac机器人平台进行重大升级，推动具身智能突破。不仅如此，黄仁勋还与苹果强强联手，将Omniverse平台引入苹果Vision Pro，并宣布为工业数字孪生软件工具提供Omniverse Cloud API。

谷歌搜索正在测试AI概述功能

据Search Engine Land报道，谷歌正在测试谷歌搜索结果中的AI概述功能。即便用户尚未选择加入谷歌SGE搜索生成体验实验室功能，也能在搜索结果中看到AI总结的答案。

谷歌Gemini 1.5 Pro推出API

谷歌宣布其多模态大模型Gemini 1.5 Pro推出API（应用程序接口），开发者现在可以在AI Studio UI中试用。

微软首款AI PC亮相

3月22日凌晨，微软发布Surface系列最新商用产品，以及Copilot在Windows 11上的一系列新应用。Windows 11中的Copilot充当协调器，可以实现安全地跨应用程序、文件和网络启动，帮助用户执行从总结电子邮件和会议到个性化和优化新设备等任务。

阿里通义千问免费开放1000万字长文档处理功能

阿里通义千问升级，向所有人免费开放1000万字的长文档处理功能，成为全球文档处理容量第一的AI应用。即日起，所有金融、法律、科研、医疗、教育等领域的专业人士，都可通过通义千问网站和APP快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文章。

OpenAI向好莱坞推销Sora

据彭博社报道，知情人士透露称，OpenAI计划下周在美国洛杉矶与好莱坞制片厂、媒体高管及人才经纪公司举行会议，以在娱乐业建立合作伙伴关系，并鼓励电影制作人将其新的AI视频生成器整合到工作中。

腾讯发布自研游戏AI引擎GiiNEX

腾讯在2024全球游戏开发者大会上发布了自研游戏AI引擎GiiNEX。该引擎借助大模型等生成式AI技术，面向AINPC、场景制作、内容生成等场景，提供了包括2D图像、3D城市、剧情等多样化的AIGC能力，帮助开发者提升高质量内容生成的效率。同时，GiiNEX也将决策AI技术用于游戏研发测试、模拟玩法等场景。

微软利用AI Agent复现Sora

微软发布视频生成多AI Agents框架Mora，利用Agent还原Sora能力，实现了文本到视频生成、文本+图像到视频生成、扩展生成视频、视频到视频编辑、连接视频和模拟数字世界等功能，目前支持生成1024*576分辨率的12秒视频。

创业 & 投融资

Stability AI CEO宣布辞职

3月23日上午，美国明星AI独角兽Stability AI发布官方公告，称今天早些时候，Emad Mostaque辞去了Stability AI首席执行官及公司董事会的职务，以追求去中心化的AI。Stability AI董事会已任命首席运营官Shan Shan Wong和首席技术官Christian Laforte为Stability AI的临时联合首席执行官。Stability AI正在积极寻找一位永久的首席执行官，以带领公司进入下一个增长阶段。

Stability AI核心团队被曝集体离职

据福布斯援引知情人士消息报道，AI独角兽Stability AI上周在全体员工会议上宣布，文生图模型Stable Diffusion核心研究团队集体辞职，包括五位论文作者中的三位Robin Rombach、Andreas Blattmann和Dominik Lorenz，其中前两人是共同一作。

马斯克Grok大模型开源参数量3410亿

马斯克的AI创企xAI正式发布了大模型Grok-1，其参数量达到了3140亿，超过OpenAI GPT-3.5的1750亿。这是迄今参数量最大的开源大语言模型，遵照Apache 2.0协议开放模型权重和架构。Grok-1是一个混合专家（Mixture-of-Experts，MOE）大模型。xAI称这是他们自己从头训练的大模型，Grok-1没有针对特定应用进行微调。

月之暗面智能助手支持200万字上下文

AI创企月之暗面（Moonshot AI）宣布其智能助手Kimi在长上下文窗口技术上取得突破，无损上下文长度提升至200万字。支持200万字上下文的Kimi已启动内测。据称，基于新版Kimi，用户上传几十万字的经典德州扑克长篇教程后，Kimi可以扮演德扑专家为用户提供出牌策略的指导。

Anthropic寻找新投资者但不接受沙特资金

据CNBC报道，主权财富基金及其他投资者正争相入股美国生成式AI独角兽Anthropic。但出于国家安全考虑，Anthropic已排除接受沙特任何资金的可能，亚马逊、谷歌等Anthropic现有利益相关者预计不会在本轮融资中增持。

微软被曝6.5亿美元买下Inflection员工

据参与微软和Inflection AI交易的人士透露，微软已同意向Inflection AI支付约6.5亿美元，主要以许可协议的形式，使Inflection AI的模型可以在Azure 云服务上销售。另一位知情人士称，Inflection AI正在利用许可费帮助其投资者获得适度的资本回报。除了6.2亿美元的许可费外，微软还同意向Inflection AI支付约3000万美元，以放弃与大规模招聘相关的任何合法权利。微软还与Inflection AI谈判了1.4亿美元的信贷额度，旨在帮助Inflection AI为其运营提供资金并支付微软服务费用。

Anthropic与AWS将合作ToB生成式AI

AI创企Anthropic宣布与AWS和埃森哲达成合作，将生成式AI部署到企业中来满足其特定需求，同时保持数据的私密性和安全性。超过1400名埃森哲工程师将接受培训，在AWS上使用Anthropic模型为客户提供端到端支持。

产品 & 模型

AI音乐生成创企发新模型几秒生成两分钟歌曲

AI音乐生成创企Suno发布文生音乐模型v3，该模型可在几秒钟内创建完整的两分钟歌曲。该工具可以通过其免费的独立网站访问，也可以通过启用Suno的第三方插件Microsoft Copilot访问。

前微软全球副总裁创业公司推出Step系列大模型

由前微软全球副总裁、微软亚洲互联网工程院首席科学家姜大昕创办的阶跃星辰公司推出Step系列通用大模型，包括Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型，以及Step-2万亿参数MoE语言大模型的预览版，提供API接口给部分合作伙伴试用。基于Step-1和Step-1V千亿参数大模型的产品效率工具跃问和AI开放世界平台冒泡鸭已经全面开放。

华人团队推出视频扩展模型MOTIA

来自香港中文大学、上海AI实验室、商汤科技等机构的华人团队推出视频扩展模型MOTIA。该方法利用源视频的固有数据特定模式和图像/视频生成先验来实现有效的扩展。MOTIA包括两个主要阶段：输入特定调整、模式感知扩展。此外作者提出了额外的策略，包括空间感知插入和噪声传播，以更好地利用扩散模型的生成先验和从源视频中获取的视频模式。

Transformer五作创企发布首个大模型成果

创企Sakana AI发布首个研究成果，提出了一种自动融合多种现有模型来构建优秀基础模型的方法，并发布了原型模型。为了演示这种方法，团队构建了三个基于日语的模型，分别是日语大语言模型EvoLLM-JP、使用日语对话的图像语言模型EvoVLM-JP、高速日语图像生成模型EvoSDXL-JP。Sakana AI成立于2023年8月，由两位著名的前谷歌研究人员David Ha和Llion Jones创立，其中Jones是著名的Transformer论文《Attention Is All You Need》的第五位作者。

知乎发布AI功能“发现·AI搜索”

在“2024知乎发现大会”上，知乎创始人、董事长兼CEO周源今日带来了知乎大模型的最新进展，发布了全新AI功能“发现·AI搜索”。据介绍，该功能以社区可信赖内容为来源，给用户带来集搜索、实时问答和追问功能于一体的全新体验。

360安全大模型3.0发布

360集团发布360安全大模型3.0。360安全大模型3.0框架在构建时充分参考人类大脑的运行逻辑，基于数据、知识、算力优势，训练语言、规划、判别、道德、记忆五大功能中枢。360集团首席科学家兼360数字安全集团CTO潘剑锋称，360安全大模型3.0不仅实现安全基础知识问答、初级脚本分析等基础能力，且锚定安全行业痛点、革新安全能力体系、引领未来安全实战。

字节推出视频生成模型AnimateDiff-Lightning

根据arXiv，字节跳动于3月19日推出了AnimateDiff-Lightning，一个用于快速生成视频的新模型。该模型使用渐进式对抗扩散蒸馏技术，据称可以实现闪电般快速的视频生成。同时，团队进一步提出了跨模式扩散蒸馏，提高蒸馏模块泛化到不同的风格化基本模型的能力。AnimateDiff-Lightning模型目前已开源。

如果觉得不错，随手点个赞、评论、转发吧。我是陌小北，一个正在研究硅基生命的、有趣的碳基生命。如果你想第一时间看到我的文章，欢迎关注。