2025年2月人工智能前沿发展总结

2月1日

OpenAI 发布 o3-mini【重要】

  • OpenAI发布了新的模型 o3-mini,该模型在此次发布中包含 lowmediumhigh 三个版本。
  • OpenAI表示,o3-mini 模型是其推理模型系列中最新、最具成本效益的模型。该模型在数学、编程和科学领域的表现与 o1 相当,同时具有更快的响应速度。
  • 目前,该模型已经上线 ChatGPT 和 API。ChatGPT 的 PlusTeamPro 用户从今天起就可以开始访问该模型,企业版访问权限将会在一周内开放。PlusTeam 用户每天可以向 o3-mini 发送150条数据。免费用户也可以在消息编辑器中选择“推理”或重新生成响应来试用该模型,这是OpenAI首次向ChatGPT的免费用户提供推理模型。
  • o3-mini 模型支持搜索功能,提供带有相关网络来源链接的最新答案。但是,该模型目前还不支持视觉推理功能,如果需要解决视觉推理任务,仍然需要使用之前的 o1 模型。

2月3日

OpenAI 发布 Deep Research【重要】

  • ChatGPT 上新 Deep Research,用于把推理大模型的思考能力用于联网搜索。
  • Deep Research 使用 OpenAI o3 驱动,基于真实任务的训练,采用了与 o1 相同的强化学习方法。只需要输入提示词,它就会自动查找分析并整合数百个在线资源,生成一份达到研究分析师水平的综合报告。
  • 根据介绍,Deep Research 可以在数十分钟完成人类专家需要几个小时完成的复杂研究任务。并且,在“人类最后的考试”上,Deep Research 刷新了最高分,比 o3-mini 高推理设置的分数还高出一倍。
  • o1 相比,Deep Research 最突出的地方在化学、人文、社会科学以及数学中,表现出类似于人类的“在必要时寻找专业信息”的能力。

2月4日

Qwen2.5-Max 进入大模型竞技场前十

  • 阿里的 Qwen2.5-Max 在大模型竞技场中超越了 DeepSeek-V3,以1332分的总成绩位列所有模型榜单中的第七。
  • 这一次,Qwen2.5-Max 还同时超越了 Claude-3.5-SonnetLlama-3.1-405B 等模型。特别是在编程、数学等方面表现突出,能够与满血 o1 以及 DeepSeek-R1 并列第一。
  • 大模型竞技场的官方评价说,中国的 AI 正在快速缩小差距。

2月6日

Gemini 2.0 系列模型大更新【重要】

  • 谷歌宣布对 Gemini 2.0 家族的模型进行全面更新,更新的模型分别是 Gemini 2.0 FlashGemini 2.0 ProGemini 2.0 Flash-Lite
  • 至此,Gemini 2.0 家族的所有模型,全部跻身大模型竞技场内的前十,且 Gemini 2.0 Pro 已经超过了 DeepSeek-R1
  • 在更新的模型中,Gemini 2.0 Pro 是谷歌迄今为止在编程和复杂指令任务中表现最好的模型,也是谷歌 DeepMind 迄今为止最强的模型,它具有 2M 的上下文窗口,支持调用谷歌搜索和代码执行工具;Gemini 2.0 Flash-Lite 是谷歌目前为止性价比最高的模型,也进入了竞技场总榜前十。
  • 模型的使用成本也一降再降,甚至被网友调侃模型在免费打工。

ChatGPT Search 全面开放

  • 刚刚,OpenAI 把 ChatGPT Search 全面开放。
  • 从今天开始,所有的用户都不需要注册登录即可进行智能搜索,并且使用方法和传统的搜索引擎相同。

2月7日

o3-mini 推理思维链公开

  • 刚刚,OpenAI 把 o3-mini 的推理思维链公开了。从今天起,免费用户和付费用户都可以看到模型的思维过程。
  • OpenAI 的首席产品官暗示,由于完整的思维链会被竞争对手蒸馏,因此他们采取了一定的方式来平衡模型的思考过程。

2月9日

谷歌发布 AlphaGeometry-2【重要】

  • 谷歌最新发布了全新进化的 AlphaGeometry-2,该系统在解决奥林匹克几何问题方面已经超过了金牌得主的平均水准,解题率达到了 84%。
  • 在去年七月,DeepMind 曾经介绍了 AlphaGeometry-1,该模型距离奥林匹克几何问题的金牌也只有一步之遥。
  • 相较于 AlphaGeometry-1,第二代模型利用了更强大的基于 Gemini 的语言模型,还引入了速度更快、更强大的符号引擎,还采用了一些新的技术。

2月10日

Meta 发布新视频生成框架

  • Meta GenAI 的团队新提出了一种全新的框架 VideoJAM,用于针对性地解决运动一致性的难题。
  • VideoJAM 基于主流的 DiT 路线,但是和 Sora 等纯 DiT 模型相比,动态效果更好。在不需要额外数据或缩放的情况下,就可以无缝集成到不同规模的 DiT 模型中,带来运动效果的提升。

2月13日

百度宣布文心一言将免费【重要】

  • 今天上午,百度宣布,随着文心大模型的迭代升级和成本不断下降,将于4月1日零时开始全面免费。所有的PC端用户和APP端用户都可以体验文心系列最新模型,以及超长文档处理、专业检索增强、高级AI绘画和多语种对话等功能。

2月14日

DeepSeek 官方发布部署设置【重要】

  • 不要添加系统提示词,所有指令都应该被包含在用户提示词中。
  • 采样温度设置为 0.50.7 之间,建议使用 0.6,避免出现输出重复循环或语义不连贯的现象。
  • 使用官方提示词模板。对于文件上传和网络搜索,给出的提示词模板分别如下:
file_template = \"""
    [file name]: {file_name}
    [file content begin]
        {file_content}
    [file content end]
    {question}
"""
search_answer_zh_template = \'''
# 以下内容是基于用户发送的消息的搜索结果:
{search_results}
在我给你的搜索结果中,每个结果都是[webpage X begin]...[webpage X end]格式的,X代表每篇文章的数字索引。请在适当的情况下在句子末尾引用上下文。请按照引用编号[citation:X]的格式在答案中对应部分引用上下文。如果一句话源自多个上下文,请列出所有相关的引用编号,例如[citation:3][citation:5],切记不要将引用集中在最后返回引用编号,而是在答案对应部分列出。在回答时,请注意以下几点:
- 今天是{cur_date}。
- 并非搜索结果的所有内容都与用户的问题密切相关,你需要结合问题,对搜索结果进行甄别、筛选。
- 对于列举类的问题(如列举所有航班信息),尽量将答案控制在10个要点以内,并告诉用户可以查看搜索来源、获得完整信息。优先提供信息完整、最相关的列举项;如非必要,不要主动告诉用户搜索结果未提供的内容。
- 对于创作类的问题(如写论文),请务必在正文的段落中引用对应的参考编号,例如[citation:3][citation:5],不能只在文章末尾引用。你需要解读并概括用户的题目要求,选择合适的格式,充分利用搜索结果并抽取重要信息,生成符合用户要求、极具思想深度、富有创造力与专业性的答案。你的创作篇幅需要尽可能延长,对于每一个要点的论述要推测用户的意图,给出尽可能多角度的回答要点,且务必信息量大、论述详尽。
- 如果回答很长,请尽量结构化、分段落总结。如果需要分点作答,尽量控制在5个点以内,并合并相关的内容。
- 对于客观类的问答,如果问题的答案非常简短,可以适当补充一到两句相关信息,以丰富内容。- 你需要根据用户要求和回答内容选择合适、美观的回答格式,确保可读性强。
- 你的回答应该综合多个相关网页来回答,不能重复引用一个网页。
- 除非用户要求,否则你回答的语言需要和用户提问的语言保持一致。
- # 用户消息为:
- {question}
'''
  • 为了确保模型在回答问题时不要跳过思考过程,建议强制要求模型每次输出时都以思考标签 [<think>\n] 开始。

苹果发现模型蒸馏 Scaling Law

  • 苹果的最新研究发现了蒸馏过程中学生模型和教师模型能力之间的幂律关系。他们发现,学生模型的损失随着教师模型损失降低整体呈现下降趋势,但是如果教师模型的性能太强,学生模型性能反而会恶化。
  • 存在一个学生模型相对于教师模型学习能力的转折点,其两侧分别呈现出不同的幂律关系。

昆仑万维发布国内首个自研空间智能AI

  • 刚刚,昆仑万维发布了一款全新自研的 Matrix-Zero 世界模型。
  • 该世界模型包含两款子模型,分别是昆仑万维自研的 3D 场景生成大模型与昆仑万维自研的可交互视频生成大模型。支持将用户输入的图片转化为可以自由探索的真实合理的 3D 场景,并支持根据用户输入实时生成互动视频效果。
  • 至此,昆仑万维正式成为国内首家同时提出 3D 场景生成、可交互视频生成模型的探索空间智能的企业。

2月15日

Perplexity 推出免费 Deep Research【重要】

  • AI 搜索的发起人 Perplexity 刚刚推出了自家的 Deep Research,任意给出一个话题,就可以生成深度的研究报告,并且该模型向所有人免费开放。
  • 非订阅用户每天最多可以查询五次,而 Pro 用户每天可以最多使用 500 次。
  • 在性能测试中,该模型在“人类的最后考试”中准确率达到了 20.5%,仅次于 OpenAI 的 Deep Research,优于 Gemini-Thinkingo3-minio1DeepSeek-R1 等众多主流模型。最重要的是,该模型足够快,平均在三分钟内就可以完成大多数研究任务。

2月16日

微信接入满血版 DeepSeek-R1【重要】

  • 微信接入满血版的 DeepSeek-R1,正在进行灰度测试,部分微信用户可以内测基于 DeepSeek-R1 的 AI 搜索功能。

2月17日

扩散语言模型LLaDA发布

  • 人大高瓴人工智能研究院和蚂蚁集团共同提出的 LLaDA-8B 模型,该模型是首个用扩散模型代替自回归的大语言模型。
  • LLaDA-8B 在上下文学习方面与 LLaMA3-8B 的能力相当。

百度搜索全面接入 DeekSeek

  • 百度搜索在2月16日晚宣布将全面接入 DeekSeek 和文心大模型的深度搜索功能。
  • 前段时间,百度也宣布文心一言大模型和深度搜索在4月1日开始将免费使用,并且即将开源文心大模型4.5。

群核智能成为全球空间智能第一股

  • 2月14日,空间智能独角兽群核科技正式向港交所递交了招股申请书,启动IPO进程,冲击全球空间智能第一股。
  • 群核智能在2011年由浙大清华校友创办,始终专注于空间认知相关技术的研发和落地。按照月平均用户数量计算,它是全球最大的空间设计平台;按年收入计算,它是中国目前最大的空间设计行业参与者。
  • 群核智能与 DeekSeek、宇树科技(具身智能独角兽)、游戏科学(黑神话悟空的开发商)、BrainCo(脑机接口独角兽)、云深处科技(具身智能独角兽)被外界称为“杭州六小龙”。

2月18日

阶跃发布全球最大开源视频模型

  • 刚刚,阶跃星辰联合吉利骑车集团,开源了两款新的多模态大模型。其一是全球范围内参数量最大的开源视频生成模型 Step-Video-T2V,另一个是行业内首款产品级开源语音交互大模型 Step-Audio
  • 根据官方的技术报告,这两款模型在基准测试集上表现超过了国内外同类的开源模型。
  • Step-Video-T2V 的参数量达到 30B,是目前全球范围内参数量最大的开源视频生成大模型,支持中英双语输入。
  • Step-Audio 是行业内首个产品级开源语音交互模型,在五个主流的公开测试集中,它的性能都超过了行业内的同类型开源模型,位居第一。

Grok-3 系列模型正式发布【重要】

  • Grok-3 系列模型从今天开始正式发布,马斯克称 Grok-3Grok-2 好十倍。该模型使用位于孟菲斯的包含有20万块 GPU 的巨大数据中心进行训练,有人指出它消耗的算力是 DeepSeek-V3 的 263 倍。
  • Grok-3 模型在基准测试上的成绩大幅度超过 Gemini-2.0-ProDeepSeek-V3Claude-3.5-SonnetGPT-4o,这些被对比的模型的性能和 Grok-3-mini 接近。Grok-3 在编程、数学、创意写作、指令遵循、长查询、多轮对话等场景的排名都是第一。
  • 在大模型竞技场上,早期 Grok-3 的得分就已经取得了第一,超过了包括 DeepSeek-R1 在内的所有其他模型,也成为了第一个突破 1400 分的模型。
  • Grok-3 也支持推理能力,解锁了测试时计算。该模型支持 Big Brain 模式,即使用更多算力来进行更深度的思考,解决更复杂的问题。

2月19日

超强大模型后训练工具箱发布

  • 今天,已收获了四万个 Github Star 的 Colossal-AI,发布了开源大模型后训练工具箱。
  • 工具箱中包含的内容包含:DeekSeek-V3DeekSeek-R1 满血版的 LoRA 低成本 SFT 微调、完整的强化学习工具链(包括PPO、GRPO、DPO、SimPO等)、无缝适配 DeekSeek 系列蒸馏模型在内的 HuggingFace 开源模型、兼容支持英伟达 GPU、华为昇腾 NPU 等多种硬件。

2月20日

微软发布全球首个拓扑量子芯片【重要】

  • 今日凌晨,微软发布了全球首个基于拓扑架构的量子芯片 Majorana-1,该芯片未来将容纳一百万个量子比特。
  • 该芯片处于一种超越固态、液态和气态的全新物质形态(拓扑量子态),标志着量子计算迈入了一个新的时代。微软CEO纳德拉表示,一块可以握在掌心的芯片,能够解决当今地球上所有超算都无法突破的难题。
  • 与传统的量子计算相比,Majorana-1有更强的容错能力和抗干扰性,可用在复杂环境中运行。

iPhone-16e 正式上线

  • 今天凌晨,iPhone-SE 系列的精神续作 iPhone-16e 正式上线,国内起售价格为 4499 元。
  • 该型号引入了苹果期待已久的自研 5G 基带 C1 芯片,并搭载了最新的 A18 芯片(阉割版),并且支持满血的 Apple Intelligence
  • 新的 C1 芯片使得 iPhone-16e 创造了 6.1 英寸 iPhone 的续航新纪录,可以实现长达26小时的视频播放。

2月21日

FigureAI 发布具身大模型 Helix【重要】

  • 在本月突然宣布与 OpenAI 终止合作之后,知名机器人初创公司 Figure AI 在本周四晚上公开了背后的原因:他们已经造出了自己的通用具身智能模型 Helix
  • Helix 是一个通用的视觉-语言-动作(VLA)模型,它统一了感知、语言理解和学习控制,以克服机器人技术中的多个长期挑战。
  • Helix 创造了多项第一:历史上第一个类人机器人上半身的高速连续控制 VLA 模型;可以两台机器人用一个模型控制协作完全前所未见的任务;可以捡起它们从未监国的任何小型物体;第一个在本地GPU运行的机器人 VLA 模型,已经具备了商业化落地的能力。

2月23日

月之暗面开源改进版 Muon 优化器

  • Muon 是一种神经网络隐藏层的 2D 参数优化器,作者是 OpenAI 的深度学习团队。相较于其他优化器,它可以用更短的时间将模型训练到相同的精度。但是,Muon 团队只证明了其在小型模型和数据集上的可行性。
  • 月之暗面团队发现了 Muon 方法的 Scaling Law,做出改进并证明了 Muon 对更大的模型同样适用,算力需求相较于 AdamW 直接降低了 48% 。

2月24日

DeepSeek 开源 FlashMLA【重要】

  • 在 DeepSeek 开源周的第一天,它公布了自己的成本降低方法,即 FlashMLA,该方法直接突破了 H800 的计算上限。
  • FlashMLA 是为 Hopper GPU 开发的高效 MLA 解码内核,专门针对可变长度序列进行了优化,目前已经投入生产。
  • MLA 是 DeepSeek 提出的创新注意力架构,从V2开始,MLA 就使得 DeepSeek 在系列模型中的实现成本大幅度降低,但是计算和推理性能仍然和顶尖模型持平。

2月25日

Claude-3.7-Sonnet 发布【重要】

  • 今天凌晨,Anthropic 正式发布了其迄今为止最智能的模型以及全球首款混合推理模型 Claude-3.7-Sonnet,即用户可以选择模型正常回答还是回答前思考更长时间。
  • Claude-3.7-Sonnet 可以产生近乎即时的响应或向用户展示扩展的、逐步的思考过程,即标准思考和扩展思考模式。对于 API 用户,还可以对模型的思考时间进行细粒度控制。免费用户暂时还不能体验扩展思考模式。
  • 另外,Anthropic 还推出了用于智能编码的命令行工具 Claude Code,使得开发人员能够直接从他们的终端将大量工程任务交给 Claude 来完成。
  • 目前,Claude-3.7-Sonnet 是 Anthropic 迄今为止最好的编码模型,其尤其擅长编程和 Web 开发。

阿里发布旗舰推理模型 QwQ-Max

  • 阿里团队发布推理模型Max旗舰版 QwQ-Max-Preview,该模型在 LiveCodeBench 编程测试中排名第五,略微超过 o1 中档推理和 DeepSeek-R1-Preview
  • 根据发布公告,该模型的基础模型是 Qwen-2.5-Max,擅长数学、编程以及与 Agent 有关的任务。
    模型未来将以 Apache 2.0 许可协议进行开源,也会有 32B 等本地部署版本。

2月25日

何恺明开辟生成模型全新范式

  • 何恺明团队提出分形生成模型,首次使得逐像素生成高分辨率的图像成为可能。
  • 在该模型中,生成模型本身被抽象为可以复用的“原子模块”,通过递归地在生成模型中调用这些模块,可以构建出一种自相似的分形架构。
  • 这种分形架构将计算效率提升到传统方法的 4000 倍。

阿里开源最强视频生成模型

  • 阿里在深夜开源了视频生成模型 Wan-2.1,其靠 14B 的参数直接在视频模型排行榜上完成了屠榜,打败 SoraGen3Luma 等其他的众多对手。
  • 除了支持 720P 分辨率的模型之外,阿里还推出了一个 1.3B 的小号版本,支持 480P 的分辨率,占用的显存是 8GB 左右,因此用 4070 这样的显卡也是可以带动的。

2月26日

GPT-4.5 正式发布【重要】

  • 今天凌晨四点,OpenAI 正式发布了其最强大、最强的聊天模型 GPT-4.5 研究预览版本。需要说明的是,GPT-4.5 从一开始就不是一个推理模型。
  • 从今天开始,ChatGPT 的 Pro 用户可以在网页版、手机版和桌面版使用 GPT-4.5,下周开始将向 PlusTeam 用户开放,再下一周向企业和 Edu 用户开放。
  • OpenAI 表示,GPT-4.5 可以更好地理解人类的意图,并以更加细致的情商来解答微妙的提示或隐含的期望。除此之外,GPT-4.5 还表现出了更强的审美直觉和创造力,擅长帮助写作和设计。
  • OpenAI 指出 GPT-4.5 在做出反应前不会思考,使得它是一种更加通用、天然更智能的模型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值