文章目录
3月3日
科大讯飞发布星火 X1 模型
- 科大讯飞发布星火
X1
模型,该模型以70B
的参数规模,便在数学能力上追平了o1
和DeepSeek-R1
。尤其是,在竞赛级难题上和中小学实用任务中,新模型更是全面领先DeepSeek-R1
。 - 该模型在全国产算力平台上实现。模型不用依赖英伟达的显卡,使用的是更小的规模、更少的算力。
3月6日
Manus 智能体发布【重要】
- 一个名为
Manus
的通用 AI 智能体发布,该智能体可以完成从文件处理、数据分析、代码编写到内容创造在内的多种任务。 Manus
开放了少量邀请码,目前能够体验到这款应用的人数还非常少,在电商平台上Manus
的价格一度被炒作到几万元。- 在
Manus
发布后的很短时间内,就已经出现了开源复刻结果,例如国内的OWL
和OpenManus
。
阿里开源超强推理小模型 QwQ-32B【重要】
- 今天凌晨三点,阿里开源发布了新推理模型
QwQ-32B
,其净参数量仅有32B
,但是性能足以比肩671B
参数的DeepSeek-R1
满血版。 - 该模型扩展了 RL 的方法,发现 RL 训练可以不断提升模型的性能,尤其是在数学和编程任务上。
QwQ-32B
已经在 HuggingFace 和 ModelScope 上进行了开源,采用Apache 2.0
开源协议。
3月7日
Mistral 发布最强 OCR 模型
- Mistral 发布了号称“世界上最好的OCR模型”。与之前的其他模型不同,该模型可以用前所未有的准确度和认知能力理解文档的每个元素(包括媒体、文本、表格、公式等)。
- 由于其功能特性,
Mistral OCR
称得上是一种理想的模型,可以与多模式文档(如幻灯片或复杂PDF)作为输入的 RAG 系统结合使用。
3月12日
OpenAI 发布智能体 API【重要】
- 今天凌晨,OpenAI 发布了一系列可以让开发者通过 API 构建智能体的新工具,其中最大的看点是
Responses API
,是对之前的Chat Completions API
的一轮大升级,使得其获得了使用网络检索、文件搜索和计算机使用能力。 - 通过连接各种外部工具,大模型可以更好地连接到现实世界,让模型完成更加有用的任务。
Responses API
即日便可使用,并且不会单独收费,token 消耗和工具按照 OpenAI 定价页面上指定的标准费率进行计费。
谷歌发布 Gemma 3 系列模型【重要】
- 在刚刚的巴黎开发者日上,开源的
Gemma
模型正式迭代到第三代,原生支持多模态和128K
上下文。 - 此次发布的
Gemma 3
模型有四种规模,分别是1B
、4B
、12B
和27B
。最关键的是,使用一块 GPU 或 TPU 就可以运行模型。 - 在竞技场中,
Gemma 3
以27B
的参数击败了o1-preview
、o3-mini-high
、DeepSeek-V3
等模型,堪称仅次于DeepSeek-R1
的最优开源模型。
3月13日
Open-Sora 2.0 正式发布【重要】
- 今天,潞晨科技正式推出全新开源的 SOTA 视频生成模型
Open-Sora 2.0
。该模型的参数量为11B
,是商业级的视频生成大模型,仅使用了20万美元(224张GPU)完成训练。 - 尽管训练成本低廉,但是该模型的性能直追
HunyuanVideo
和30B
参数的Step-Video
。根据权威评测,该模型在多项关键指标上媲美数百万美元训练成本的模型。 - 此次发布中,模型的权重、推理代码和分布式训练全流程都全部开源。
3月14日
Gemini 推出原生图像生成功能
- 谷歌
Gemini
推出原生的图像生成功能,这是谷歌首个向公众发布的全模态图像生成器。 - 传统的AI生图器需要分别处理文本和图片,而该模型可以同时输出文本和插图,保持非常高的一致性。而全模态图像生成器具备超强的推理能力,能够结合现实世界的知识生成更加符合上下文的图像,理解更多细节,更遵循文化背景特征。
- 所有的开发者都可以使用
Gemini-2.0-Flash
进行原生的图像生成,使用Gemini API
和Google AI Studio
中的实验版本即可。
Transformer 架构历史性突破【重要】
- 何恺明和 LeCun 等人联手,共同提出了一种没有归一化层的
Transformer
。 - 在这种改进后的架构中,他们证明即使不使用归一化层的
Transformer
模型也可以达到相同甚至更好的性能。 - 该架构的改进方法出人意料的简单,他们发现层归一化将输入转换为输出时,呈现出类似于
tanh
的S形曲线,因此他们就使用缩放的tanh
函数(他们称为动态的tanh
,DyT
)来代替归一化层。
3月17日
百度发布文心 4.5 和 X1 模型
- 百度今天官宣了两款大模型,分别是 文心大模型
X1
和 文心大模型4.5
。 - 文心大模型
X1
是一款深度思考模型,具有更强的理解、规划、反思和进化能力,尤其是还支持多工具调用;而 文心大模型4.5
号称是新一代原生多模态基础打模型,擅长多模态的理解。 - 目前,两款模型都在文心一言官网、百度搜索等产品中上线,并且全都免费。
3月18日
昆仑万维开源首个多模态推理模型
- 昆仑万维正式发布
Skywork R1V
系列模型,实现了 SOTA 级别的视觉推理和强大的通用推理能力。昆仑万维也随之成为国内首家开源多模态思维推理模型的企业。 - 在多项基准测试上,
R1V-38B
相较于文本推理模型,在数学推理、代码生成等任务中达到了领先水平,在部分任务上已经接近了更大尺寸的闭源模型。相较于传统的多模态大模型,其推理能力更是遥遥领先。 - 另外,
R1V
是全球范围内首个在数学推理能力上接近 OpenAIo1
的开源多模态模型。
3月19日
英伟达发布最强芯片 GB300【重要】
- 黄仁勋在 GTC 大会上正式发布了最强 AI 芯片
GB300
,该芯片的推理性能是去年发布的GB200
的1.5
倍。 - 英伟达的官方博客称,该芯片实现了
DeepSeek-R1
推理性能的世界纪录。 - 据悉,
GB300
将在今年的下半年开始出货。
3月20日
宇树科技机器人实现侧空翻【重要】
- 宇树科技发布视频,展示了机器人
Unitree G1
的后空翻,惊艳众多网友。该机器人身高一米三,体重七十斤,售价9.9
万起。 - 宇树科技表示,这是世界上第一款征服站立侧空翻的人形机器人,并且在编程和拍摄期间未发生任何故障或损坏。
- 需要补充说明的是,波士顿动力开发的
Altas
机器人也做过各种各样的动作,而这些动作是由真人穿着动捕服装采集动作信息,然后把这些数据喂给Atlas
进行强化学习实现的。
OpenAI 推出 o1-pro API
- 刚刚,OpenAI 在其开发者 API 中推出了
o1
推理模型的一个更强大的版本,即o1-pro
。 - 据 OpenAI 称,
o1-pro
使用比o1
更多的计算资源来提供更好的响应。该功能仅对特定开发者开放,支持视觉、函数调用、结构化输出,并与响应和 Batch API 兼容。 - 该 API 是史上最贵的 API,每100万输入 token 收费
150
美元,每100万输出 token 收费600
美元。
华为新折叠屏手机 Pura X 发布
- 华为发布
16:10
阔形屏折叠手机Pura X
,同时也首发了鸿蒙 AI 功能。另外,这也是纯血鸿蒙第一次全量首发搭载。由于抛开了兼容框架的桎梏,搭载纯血鸿蒙的Pura X
流畅度提升了40%
。 - 鸿蒙 AI 基于华为自研盘古大模型和
DeepSeek
双模型架构,使得包括小艺助手在内的一众 AI 功能焕然一新。 12 + 256GB
的Pura X
,售价为 7499 元;12 + 512GB
的Pura X
,售价为 7999 元。另外,更加精致的典藏版价格为 9999元,典藏版具有更大的内存和存储空间。
3月21日
OpenAI 发布语音智能体【重要】
- OpenAI 在新发布会上发布了几款音频模型,开启了语音智能体新时代。
- 在本次发布会上,OpenAI 宣布实现了新的
SOTA
水平,在准确性和可靠性方面优于现有解决方案,尤其是涉及口音、嘈杂环境和不同语速的复杂场景中。这些改进提高了语音 / 文本转录应用的可靠性,新模型特别适合客户呼叫中心、会议记录转录等用例。 - 基于新的 API,开发人员第一次可以指示文本转语音模型以特定的方式说话,从而为语音智能体开启新的定制化维度,实现各种定制应用程序。
- 新的
GPT-4o-transcribe
和GPT-4o-mini-transcribe
模型和原始的Whisper
模型相比,改进了单词错误率,提高了语言识别和准确性。 - 另外,OpenAI 还推出了一个可操纵性更好的
GPT-4o-mini-tts
模型。在其之上,开发人员第一次可以指导模型,不仅可以指导模型说什么,还可以指导模型如何说,从而为大量用例提供了更加定制化的体验。
智能体摩尔定律发布
- 来自加州的非盈利研究所 METR 研究所表示,他们发现了全新的 AI 智能体 Scaling Law:AI可执行任务的长度,每七个月翻一番。
- 根据这个推论,他们预测:在五年内,AI智能体能够独立完成当前需要人类耗时数天甚至数周才能完成的大部分软件开发任务。
3月24日
Google 智能体上线手机
- 谷歌在
Gemini Live
推出全新的 AI 实时视频功能。 - 基于该功能,用户可以让
Gemini
实时查看屏幕内容,或者调用手机摄像头画面,相当于给Gemini
装上了眼睛,让它可以看见世界。 - 开启功能后,
Gemini
能实时分析手机摄像头捕捉的画面,然后回答用户提出的问题。
3月25日
DeepSeek-v3 发布超强更新【重要】
- 刚刚,
DeepSeek-v3
的更新版本DeepSeek-v3-0324
发布。模型只有660B
的参数,并且完全开源。 - 根据官方报告中的模型评测结果,新模型借鉴了
DeepSeek-r1
模型中的强化学习技术,在数学、代码类的评测集上超过了GPT-4.5
;在推理能力方面,相较于上一个版本的准确性最高提升了将近20%
。 - 虽然模型性能出现了如此之大的提升,但是这种提升只是通过改进后训练方法事先,而使用的基础模型和之前的
DeepSeek-v3
模型相同。 - 用户在进入 DeepSeek 官网、APP或小程序后,只需要关闭深度思考功能即可体验最新的
DeepSeek-v3
模型。官方建议,对于非复杂的推理任务(例如前端开发、中文写作等)使用该模型的效果更好。 - 另外,官方还发布了在各种任务下,模型应该使用的统一的系统提示词模板,以及温度设置。
- 开源版本的上下文长度为
128K
,而网页端、APP 和 API 的上下文长度是64K
。
Qwen2.5 家族更新
- 刚刚,阿里通义千问发布新模型
Qwen2.5-VL-32B-Instruct
。 - 此前,通义千问发布的开源视觉语言模型
Qwen2.5-VL
包括3B
、7B
和72B
三种参数规模,而这一次的32B
版本进一步兼顾了尺寸和性能,可以本地运行。 - 新的模型的回答更能符合人类偏好,又更强的数学推理能力,并且在图像解析、内容识别以及视觉逻辑推导等任务中,表现出更好的准确性和分析能力。
- 目前该模型也已经开源,并且用户可以在 HuggingFace 和 Qwen Chat 的官网上使用该模型
3月26日
谷歌发布 Gemini 2.5 Pro 模型【重要】
- 就在刚刚,谷歌发布了全新模型
Gemini 2.5 Pro
。 - 该模型时一个思考模型,可以在进行回复前先进行思考推理,从而提升性能并改善准确性。谷歌将其称之为世界上最强大的模型,具备统一的推理能力。
- 模型在包括编程、数学和科学在内的多项基准测试中达到了 SOTA 水平,并且以显著的优势在
LMArena
上排名第一。 - 目前,
Gemini 2.5 Pro
已经在 Google AI Studio 和 Gemini 应用中推出,向 Gemini Advanced 用户开放,并且很快将会在 Vertex AI 上推出。 - 另外,
Gemini 2.5 Pro
继承并发扬了Gemini
模型的优势,即原生多模态能力和超长的上下文长度。在刚刚发布时,就已经支持1M
token 的上下文窗口,而2M
token 的上下文窗口的版本也即将推出。
GPT-4o 图像生成技术大升级【重要】
- 奥特曼在刚刚的直播中介绍,从今天起,ChatGPT 中的原生图像生成功能正式推出,从此
GPT-4o
的全模态能力也融合进了Sora
中。 GPT-4o
不仅仅是一个语言模型,还包括图像、音频等输入输出和模态。现在,它可以理解、生成这些模态,并且无缝地在它们之间工作。
全球首款音乐推理大模型 Mureka o1 发布【重要】
- 刚刚,昆仑万维发布了全球首款音乐推理大模型
Mureka o1
,该模型的发布将之前的Suno
拉下了王座,登顶TOP1。 - 该模型采用的基座模型是
Mureka V6
,这是一款已经支持了 10 种语言的模型。
3月27日
阿里发布 7B 全模态模型
- 阿里在深夜发布并开源了首个端到端的全模态大模型
Qwen2.5-Omni-7B
,该模型仅依靠一个一体式模型,就可以搞定文本、音频、图像、视频全模态,并实时生成文本和自然语音。 - 现在打开
Qwen Chat
,就可以直接与该模型进行视频或语音交互。 - 在单模态的语音识别、翻译、音频理解、图像推理、视频理解、语音生成任务中,该模型的全维度表现也都优于类似大小的单模态模型以及闭源模型。
- 由于
Qwen2.5-Omni-7B
非常轻量,因此可以在手机等终端部署运行,且开源使用的是宽松的Apache 2.0
协议,所以开发者、企业都可以免费在魔搭社区或 HuggingFace 下载商用。
3月29日
智源新发布推进群体智能发展
- 智源研究院发布首个跨本体具身大小脑协作框架
RoboOS
与具身大脑RoboBrain
,可以实现跨场景多任务轻量化快速部署与跨本体合作,推动单机智能迈向群体智能,为构建具身智能开源统一生态加速场景应用提供底层技术支持。 - 通过共享记忆系统(包括空间记忆、时间记忆和本体记忆),实现了多个机器人之间的状态同步和智能协作,突破了单机器人的信息孤岛限制,实现跨本体的写作控制。
3月31日
谷歌宣布 Gemini 2.5 Pro 免费【重要】
- 今天谷歌突然官宣,向所有
Gemini
用户,推出Gemini 2.5 Pro
实验版,而且是以全免费的方式。 - 目前,在 LiveBench、LMSYS、人类最后的考试、智商测试中,
Gemini 2.5 Pro
几乎都是无可争议的领军者,超过 OpenAI 和 Anthropic,成绩排名第一。 - 唯一美中不足的是,
Gemini 2.5 Pro
目前仍然会有速率限制。但是对于 Gemini Advanced 用户,就可以享有更高级的访问权限和更大的上下文窗口大小。
智谱发布首个免费智能 Agent
- 智谱发布新一代 Agent 产品
AutoGLM沉思
。 - 相较于之前诸如 OpenAI 的
Deep Research
等产品,AutoGLM沉思
的最大亮点在于“边想边干”,可以像人类一样自动操作和浏览网页,意味着知网、小红书、公众号、京东等优质但不对外开放 API 的信源都可以被查到。基于背后基座模型的多模态理解能力,这些网页上的图文信息也可以被充分利用。 - 另外,
AutoGML沉思
发布后就全量上线,免费开放给每一位用户。