自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(539)
  • 收藏
  • 关注

原创 4大类AI Agent协议框架全面综述

对现有的LLM AI Agent通信协议进行了系统性的概述,并将其分为四大类,以帮助用户和开发者为特定应用场景选择最适合的协议。一、AI Agent协议的发展AI Agent协议的定义:代理协议是标准化框架,定义了代理之间以及代理与外部系统之间结构化通信的规则、格式和程序。与传统交互机制(如API、GUI或XML)相比,协议在效率、操作范围、标准化和AI原生性方面具有显著优势。:允许不同架构的异构代理系统无缝协作。:确保代理能够轻松集成和扩展其功能,通过纳入新工具、API或服务。

2025-04-29 19:24:24 713

原创 北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?

PHYBench 对模型的能力也进行了细粒度的对比。PHYBench 的发布,不仅为评估大语言模型在物理感知与推理方面的能力提供了一个全新且权威的基准,更为未来 AI 系统的发展指明了攻坚方向。我们精心设计的真实、复杂的物理场景,旨在深度激发并验证 AI 理解世界并进行可靠推理的能力,推动 AI 系统真正实现对世界的认知、融入与变革。物理感知(PP):在此阶段,模型进行密集的文字推理,模型需要识别问题相关的物理对象、变量和动力学关系,定性判断哪些物理效应是重要的,哪些可以忽略不计。

2025-04-29 19:23:44 246

原创 一篇142页全面复盘DeepSeek R1思考推理技术综述

从DeepSeek-R1推理的基本构建模块分类入手,深入分析探讨了推理长度的影响和可控性、对长篇或令人困惑上下文的管理、文化与安全问题,以及DeepSeek-R1与认知现象(如类似人类的语言处理和世界建模)的相对地位。然而,DeepSeek-R1在处理控制句(非Garden path sentences)时,推理链条长度不合理地长,且存在重复和循环推理的现象,这与人类的处理方式有显著差异。:推理链条的长度在不同任务中有所不同,但通常在分解周期最长,随后的重构周期逐渐变短,偶尔会出现较长的重构周期。

2025-04-28 14:16:07 796

原创 毛骨悚然!o3精准破译照片位置,只靠几行Python代码?人类在AI面前已裸奔

视觉线索: 瀑布底部横卧着一根巨大的漂白原木——匹配点: Water Wheel Falls有一根标志性的「阶梯状」原木,已在那里停留多年(引用了The Outbound的信息)。而且,o3可不止强在猜测国外的地理位置,有国内开发者给了它自己上班路上随手拍的一张图,它居然也一步步准确分析出了位置信息——山东青岛市北区重庆南路47号。应该是o3从鲁U推理出了青岛,从小海豚里搜出了旁边的店,然后又从百度地图和青岛本地宝里搜出信息、查看附近的邮局,最终确认的。他觉得这张照片很有挑战性,没什么明显的特征。

2025-04-28 14:15:07 565

原创 秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

值得注意的是,Kimi-Audio 在广泛使用的 LibriSpeech 基准测试中取得了最佳结果,在 test-clean 上达到了 1.28 的错误率,在 test-other 上达到了 2.42,显著超越了像 Qwen2-Audio-base 和 Qwen2.5-Omni 这样的模型。今天,kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。

2025-04-27 14:19:58 547

原创 一天拿下3.4k star,这个1.6B开源模型火了,合成对话超逼真

它不仅能生成说话的声音、对话,同时也能合成真实感非常强的笑声、喷嚏声和吸鼻子声等表达情绪的声音。在和 ElevenLabs Studio、Sesame CSM-1B 等之前以逼真著称的模型对比之后,Dia-1.6B 依然有着明显的优势,尤其是在情绪表达方面。整体来说,Dia-1.6B 在合成简单英语对话方面确实表现卓越,但却并不能很好地理解用户通过括号标注的指令,偶尔会出现类似电流的杂音。另外,Toby Kim 还指出目前最长能稳定生成大约 25 秒的音频,但用户也可以基于之前的生成结果来生成更长的音频。

2025-04-25 17:13:56 1060

原创 RAG 作者:RAG 已死,RAG 万岁!

本文作者 Douwe Kiela,RAG 论文(Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks)作者之一。以下为全文:每隔几个月,人工智能领域就会经历类似的模式。一个具有更大上下文窗口的新模型问世,社交媒体上便会充斥着“RAG 已死”的宣言。Meta 最近的突破再次引发了这场讨论——Llama 4 Scout 惊人的 1000 万(理论上)token 上下文窗口代表着一次真正的飞跃。

2025-04-25 17:13:20 830

原创 ICLR 2025杰出论文奖出炉,中国科大论文、Meta「分割一切2」论文等获奖

从理论上,作者证明了这种投影方式可以确保在查询保留知识时,经过编辑后的大型语言模型的输出保持不变,从而缓解了知识被扰乱的问题。在本文中,研究者通过若干案例分析,解释浅层安全对齐为何会存在,并揭示其如何普遍性地贡献于近年来发现的多种 LLM 脆弱性,包括对对抗性后缀攻击(adversarial suffix attacks)、预填充攻击(prefilling attacks)、解码参数攻击(decoding parameter attacks)和微调攻击(fine-tuning attacks)的易感性。

2025-04-24 19:16:50 853

原创 关于MCP最值得看的一篇:MCP创造者聊MCP的起源、架构优势和未来

据我所知,顺序思维服务器与 Anthropic 的思考工具没有直接的共同渊源。但这确实反映了一个普遍现象:为了让 LLM 进行更周全的思考、减少幻觉或达成其他目标,存在着许多不同的策略,可以从多个维度更全面、更可靠地展现效果。这正是 MCP 的强大之处——你可以构建不同的服务器,或者在同一个服务器中设置不同的产品或工具来实现多样化的功能,让 LLM 应用特定的思维模式来获得不同的结果。所以,并不存在一种理想的、规定好的 LLM 思考方式。

2025-04-24 19:16:04 714

原创 「全球首个自回归视频生成大模型」,刚刚,Swin Transformer作者创业团队重磅开源!

同时,Sand AI 也提供了视频扩展功能,可以沿着之前生成视频或用户上传视频继续生成新的视频片段,并且无需用户自己手动拼接 —— 会直接输出经过扩展后的更长视频。在开源模型中,MAGI-1 实现了最先进的性能(超过 Wan-2.1,明显优于 Hailuo 和 HunyuanVideo),尤其是在指令遵循和运动质量方面表现出色,使其成为 Kling 等闭源商业模型的潜在有力竞争者。镜头开始缓慢地顺时针旋转,向后拉开,最后,镜头高高升起,露出整艘木帆船在海浪中穿行,船长无动于衷,凝视着远方的地平线。

2025-04-23 14:10:26 1409

原创 Agents和Workflows孰好孰坏,LangChain创始人和OpenAI杠上了

目前,Agent 没有一个统一的或大家公认的定义,不同的人常常从不同的角度来定义它。OpenAI 更倾向于从一个比较高屋建瓴、偏思想引领的角度来定义 Agent。Agents 是那些能代表你独立完成任务的系统。说实话,我个人不太喜欢这个说法。这太笼统了,并不能帮我真正搞清楚 Agent 到底是个什么东西。这种说法太务虚,一点都不实用。对比一下 Anthropic 的定义:「Agent」 可以有几种不同的定义。有些客户把 Agent 看作是完全自主的系统,能长时间独立运行,用各种工具完成复杂的任务。

2025-04-23 14:09:52 731

原创 硅谷AI初创要让60亿人失业,网友痛批人类叛徒!Jeff Dean已投

Besiroglu则告诉媒体:「劳动力的完全自动化可以创造巨大的富裕、更高的生活水平,以及我们今天无法想象的新商品和服务。去年12月,OpenAI秘密支持了Epoch AI的数学基准数据集的创建,随后利用该基准发布了新的o3模型。Mechanize,一家专注于开发虚拟工作环境、基准测试和训练数据的初创公司,目标是实现经济的全面自动化。有网友表示「自动化经济」就是让人失去工作的经济,加入贫富分化的经济,对人类没有任何好处。他们坚信,AI的最大价值是将普通的劳动任务自动化,而不是成为「数据中心里的天才」。

2025-04-22 17:18:29 427

原创 Sebastian Raschka长文:DeepSeek-R1、o3背后,RL推理训练正悄悄突破上限

也就是说,优势计算涉及另外两个模型,这些模型的规模通常与我们正在微调的原始模型相同。他们采用了基础版本的概率策略优化算法(vanilla PPO),而非 DeepSeek-R1-Zero 中所使用的广义随机策略优化算法(GRPO),并省略了强化学习对人类反馈(RLHF)流程中常见的 Kullback-Leibler 正则化项(KL regularization)。有趣的是,论文还发现,这些长链模型在短推理方面的表现也出人意料地好,在相同的 token 长度下,甚至超过了 GPT-4o 等更大的模型。

2025-04-22 17:17:49 1131

原创 264页智能体综述来了!MetaGPT等20家顶尖机构、47位学者参与

此研究汇聚了来自 MetaGPT、Montréal & Mila 人工智能研究所、南洋理工大学、美国阿贡国家实验室、悉尼大学、宾夕法尼亚州立大学、微软亚洲研究院、伊利诺伊大学厄巴纳 - 香槟分校、香港科技大学、南加州大学、耶鲁大学、斯坦福大学、佐治亚大学、俄亥俄州立大学、阿卜杜拉国王科技大学、杜克大学、香港理工大学、谷歌 DeepMind 以及 加拿大高等研究院(CIFAR)等众多研究者的集体智慧与前瞻思考。论文提出,强大的大型语言模型不仅可以作为智能体的认知核心的一部分,还可以扮演优化器的角色。

2025-04-21 18:33:14 865

原创 强化学习之父当头一棒:RL版「苦涩的教训」来了!通往ASI,绝非靠人类数据

来源 | 新智元最近,图灵奖获得者、强化学习之父Richard Sutton,联同DeepMind强化学习副总裁David Silver共同发布了一篇文章。论文链接:https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf有人称,这篇文章就犹如《The Bitter Lesson》的续章,给了我们当头一棒——AI范式,正在经历大转折!

2025-04-21 18:32:31 707

原创 ControlNet作者再封神!6GB显存直出「兔八哥」动画,开源一夜获2k+星

这意味着,无论输入视频多长,FramePack都能将总上下文长度控制在固定上限内,避免因输入帧过多导致计算量爆炸,有效解决了模型处理大量帧时的计算难题。从生成帧数的角度来看,人工评估显示,每段生成9帧的配置在ELO分数上,明显高于生成1帧或4帧的配置,说明生成9帧能给用户带来更好的视觉感知。它将用户输入图像作为高质量的第一帧,然后按反向时间顺序生成后续帧,不断优化生成的帧以接近用户输入的第一帧,从而生成高质量的视频。如果模型能获取未来帧的信息,哪怕只有一帧,就能有效避免漂移。

2025-04-20 18:29:03 1113

原创 推理模型其实无需「思考」?伯克利发现有时跳过思考过程会更快、更准确

值得注意的是,即使与完整的 Thinking 方法(不采用强制预算的 Thinking 方法)相比,NoThinking 方法在将延迟降低到原来的九分之一的同时,还实现了更高的单样本准确率(pass@1)得分(55.79 比 54.1)。随着 k 值的增加,NoThinking 方法在多样本准确率(pass@k)方面令人惊喜的表现可以通过并行 scaling 得到进一步利用,从而在相似甚至显著更低的延迟(最多可降低至原来的九分之一)情况下,提升单样本准确率(pass@1)的结果。

2025-04-20 18:28:19 887

原创 谷歌首款混合推理Gemini 2.5登场,成本暴降600%!思考模式一开,直追o4-mini

请计算最大弯曲应力σ_max。在数学(AIME 2025/2024)、多模态推理(MMMU)、知识问答(GPQA)等基准上,Gemini 2.5 Flash完全碾压Claude 3.7 Sonnet,足以与最新o4-mini相媲美。当前,Gemini 2.5 Flash预览版API在Google AI Studio和Vertex AI中上线,可通过Gemini应用专用下拉菜单找到它。如下图所示,相较于2.0 Flash,Gemini 2.5 Flash在复杂任务,如数学推理、科研分析中表现更优异。

2025-04-19 10:14:51 943

原创 图灵奖得主LeCun:DeepSeek开源在产品层是一种竞争,但在基础方法层更像是一种合作;新一代AI将情感化

图片来源:This is World新型的AI系统是以深度学习为基础,的。一旦成功构建这样的系统,它们可能会有类似情感的反应,但这些情感是,而不是像愤怒或嫉妒这样的情感。仅仅通过文本训练人工智能,我们永远无法达到人类的水平。的。分层规划的思想非常重要。,而目前我们还不知道如何让机器做到这一点。这是未来几年面临的一个重大挑战。人工智能的进步是的,这就是如何实现意义和技术进步的方式。Yann LeCun法国计算机科学家,被认为是现代深度学习之父之一。

2025-04-19 10:14:10 1112

原创 一篇80页多模态RAG技术最新综述:MRAG3.0

来源 | PaperAgent多模态检索增强型生成(Multimodal Retrieval-Augmented Generation, MRAG)通过整合多模态数据(如文本、图像和视频)来增强大型语言模型(LLMs)的能力,显著提高了生成的质量并减少幻觉,系统地回顾了MRAG进展、技术组件等。一、MRAG的发展三个阶段:MRAG1.0、MRAG2.0和MRAG3.0,每个阶段都引入了新的技术和架构。MRAG1.0。

2025-04-18 16:43:42 906

原创 清华学霸、OpenAI姚顺雨:AI下半场开战,评估将比训练重要

谷歌的软件工程师(SWE)在解决 google3 问题时,随着对代码库的熟悉程度逐渐提高,解决问题的能力也会越来越好,但一个软件工程智能体在同一个代码库中解决许多问题时,并不会获得这样的熟悉度。然而,通过将推理引入强化学习环境的动作空间,我们能利用语言预训练的先验知识,实现泛化,并在决策时进行灵活的计算。AI 发展的上半场主要聚焦于模型和方法的创新,而非评估标准的建立。这些假设「一直」都是这样,在 AI 发展的前半段,在这些假设下开发基准测试是可行的,因为当智能水平较低时,提高智能通常会提高实用性。

2025-04-18 16:42:10 851

原创 智能体版《苦涩的教训》,图灵奖得主Sutton、谷歌RL大佬Silver新作:超人智能靠经验

再比如选项和选项内 / 选项间学习之类的概念促进了时间抽象,使智能体能够在更长的时间尺度上进行推理,并将复杂的任务分解为可管理的子目标。此外,有价值的新见解,如新定理、技术或科学突破,都超出了当前人类理解的边界,无法通过现有的人类数据捕获。例如,用户可能指定一个广泛的目标,如「改善我的健康状况」,而奖励函数可能返回用户心率、睡眠时长和步数的函数。类似地,以减少全球变暖为目标的科学智能体可能使用基于二氧化碳水平的经验观察作为奖励,而发现更强材料的目标可能基于材料模仿器的测量组合,如抗拉强度或杨氏模量。

2025-04-17 19:39:34 868

原创 MIT惊人神作:AI独立提出哈密顿物理!0先验知识,一天破译人类百年理论

4.在初期所学的理论更接近哈密顿动力学,但随着系统复杂性的提升,最终学习结果更趋近于拉格朗日描述,这表明在丰富的理论空间中,拉格朗日动力学仍是唯一正确的描述体系。他在获得皇家理工学院的物理学理学士学位后,于1990年离开了瑞典。从阿基米德的浮力原理,到伽利略对运动的系统研究,到牛顿的经典力学公式,再到爱因斯坦的相对论,这些科学家通过观察提出假设,从而成为经典的科学原理。在论文中,团队提出了一种新方法,在几乎不依赖物理先验的前提下,通过学习一个标量函数,并利用「作用量守恒原理」,来发现潜在的物理规律。

2025-04-17 19:38:45 998

原创 刚刚,DeepSeek公布了推理引擎开源路径,OpenAI也将开始连续一周发布

对于未来的模型发布,我们将对开源社区和硬件合作伙伴保持开放和协作的态度。今天下午,DeepSeek 默默地在自己的 open-infra-index 库中发布了一份题为「开源 DeepSeek 推理引擎的路径」的文档,宣布将开源自己的内部推理引擎(internal inference engine)并与开源社区建立更广泛的合作。对于 OpenAI 这次发布周,目前最可信的信息还是来自 OpenAI 自己,其已经在自家的 CDN(内容分发网络)上发布了一些图标,几乎明示了即将发布的一系列模型。

2025-04-16 17:11:24 835

原创 GPT-4.1深夜登场,中科大校友领队!百万上下文编程惊人,GPT-4.5三个月后淘汰

在「大海捞针」(Needle in a Haystack)评估中,GPT‑4.1、GPT‑4.1 mini和GPT‑4.1 nano均能在长达100万Token的上下文中的所有位置成功检索到「针」这项任务的挑战在于,这些相似请求与上下文的其他部分非常接近——模型很容易被细微差异误导,比如将关于貘的短篇故事误认为诗歌,或将关于青蛙的诗歌误认为关于貘的诗歌。GPT‑4.1、GPT‑4.1 mini和GPT‑4.1 nano不仅可处理最多100万Token的上下文,而且能够可靠地处理其中的内容,并忽略干扰信息。

2025-04-16 17:10:37 500

原创 刚刚,AI破解50年未解数学难题!南大校友用OpenAI模型完成首个非平凡数学证明

在AI的帮助下,研究者成功证明,模型可以映射为一维q态Potts模型,其中J_2作为最近邻相互作用,J_1则作为有效的磁场,这一结果扩展了之前在q=2,即Ising模型的证明。假设一组梯级状态按以下顺序排列:(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3)。另一方面,图3显示,对于大的q,临界点的残余熵(虚线)趋近于其相邻相的残余熵(实线),最终变得无法区分——不再有V形的临界点区域(图2左,q=10^6)。

2025-04-15 16:44:35 809

原创 突发!GitHub 被曝封禁中国区 IP

昨天,大量国内开发者发现,未登录状态下访问GitHub官网时,页面显示“Access to this site has been restricted.”,中国大陆及香港IP均被限制。感觉最近微软做的事情都在为脱钩做准备,结合这些事件,就看苹果的行动是什么了,如果这两个公司都做准备,那基本上就是要来大的了。另外也不排除github系统故障的原因,目前官方未发布任何公告,已有同学在github官方社交账号留言,目前也暂未回复!猪哥亲测在已登陆状态下还是可以正常访问,但是只要退出之后,不挂梯子访问不了。

2025-04-15 16:43:55 294

原创 谢赛宁等新作上线,多模态理解生成大一统!思路竟与GPT-4o相似?

如表8所示,研究人员测试了不同LLM骨干对MetaQuery的影响,包括预训练LLM(Qwen2.5-3B)、指令微调LLM(Qwen2.5-3B-Instruct)和指令微调MLLM(Qwen2.5-VL-3B-Instruct)。其中,N是查询的数量,D是查询的维度(与MLLM的隐藏维度相同)。然后,使用SigLIP聚类具有相似图说的图像。这些语料库不仅包含丰富的多模态上下文,其中的图像对也展现出了更有意义的关联(从直接的视觉相似性到更微妙的语义联系),从而为指令微调提供了极好且多样化的监督信号。

2025-04-14 18:32:03 773

原创 不用英伟达GPU!华为盘古Ultra来了:昇腾原生、135B稠密通用大模型

在 8192 卡规模的集群中,使用了 128 路数据并行(Data Parallelism)、8 路张量并行(Tensor Parallelism)和 8 路流水线并行(Pipeline Parallelism),同时结合了 ZeRO 和序列并行(Sequence Parallelism),以降低模型参数、优化器状态和激活值的显存占用。Pangu Ultra 采用了改进的子序列切分并行方式,针对每个样本中的子序列采用负载均衡的切分策略,每个节点负责计算子序列中的两个 chunks(见图 1.(d))。

2025-04-14 18:30:29 549

原创 多Agents 圈的 MCP:谷歌全新Agent2Agent 协议开源!

任务管理:客户端与远程代理之间的通信以任务完成为导向,代理负责执行最终用户的请求。它可以立即完成,或者,对于长时间运行的任务,每个代理可以进行通信,以彼此保持同步,了解任务的最新完成状态。作为开放协议,A2A遵循拥抱Agent能力、基于现有标准、默认安全、支持长时间运行任务和与模态无关的五项关键原则,实现灵活、安全、跨框架的Agent协作。能力发现:Agent可以使用 JSON 格式的“代理卡”来宣传其能力,从而允许客户端代理识别能够执行任务的最佳代理并利用 A2A 与远程代理进行通信。

2025-04-12 10:00:58 268

原创 200B参数击败满血DeepSeek-R1,字节豆包推理模型Seed-Thinking-v1.5要来了

通过人类对 Seed-Thinking-v1.5 与 DeepSeek-R1 输出结果的比较评估,结果发现,Seed-Thinking-v1.5 获得的用户积极反馈总体高出 8.0%,凸显了其在复杂用户场景处理能力方面的能力。然后,它会估算各种配置的性能和内存使用情况,以获得最佳配置。从技术架构看,Seed-Thinking-v1.5 采用了混合专家模型(Mixture-of-Experts,MoE)设计,总参数量为 200B,实际激活参数仅为 20B,相比同等性能的其他最先进推理模型,规模相对紧凑高效。

2025-04-12 09:59:21 1239

原创 AI教父诺奖得主 Hinton:比我们聪明的 AI,可能很快不再需要人类

Hinton 没有告诉我们“怎么办”,但他让我们看清了: 如果我们继续对 AI 抱有“可控幻觉”,最后失控的不会是技术,而是文明本身。人类不是不能创造超级智能,而是必须配得上自己创造的力量。这不是技术判断,而是文明判断。

2025-04-11 11:35:25 1011

原创 7B扩散LLM,居然能跟671B的DeepSeek V3掰手腕,扩散vs自回归,谁才是未来?

结果清晰显示,Dream 在同等规模模型中表现卓越。在 1B 参数规模上,作者深入研究了各种设计选项,确立了多个关键组件,特别是来自 AR 模型(如 Qwen2.5 和 LLaMA3)的初始化权重以及上下文自适应的 token 级噪声重排机制,这些创新为 Dream 7B 的高效训练铺平了道路。在通用能力、数学推理和编程任务上,这个模型展现出了与同等规模顶尖自回归模型(Qwen2.5 7B、LLaMA3 8B)相媲美的卓越性能,在某些情况下甚至优于最新的 Deepseek V3 671B(0324)。

2025-04-11 11:34:38 838

原创 AI封神了!无剪辑一次直出60秒《猫和老鼠》片段,全网百万人围观

据论文另一位共同一作 Gashon Hussein 介绍,为了实现逼真的动画效果,他们利用 TTT(Test-time Training,测试时训练)层来增强预训练 Transformer,并进行了微调,从而生成了时间和空间上连贯性很强的《猫和老鼠》一分钟短片。下图 3 为方法概览,其中(左)为本文修改后的架构在每个注意力层后添加一个带有可学习门的 TTT 层,(右)为整体 pipeline 创建了由 3 秒片段组成的输入序列,这种结构允许在片段上局部应用自注意力层,在整个序列上全局应用 TTT 层。

2025-04-10 16:43:29 970

原创 首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的

来源 | 量子位嚯!完全由AI生成的论文,通过顶会ICLR workshop评审?!分数为6/7/6,已经超过平均人类接收门槛。论文是酱婶的。整个通篇看下来,图表论据俱全,十分有模有样。这篇论文,由AI Scientist的2.0版本完成。背后公司Sakana AI,是Transformer作者之一的Llion Jones的创业公司。新版本2.0是一个通用端到端Agent系统,与原版本不同的是,它摆脱了对人工模版的依赖,能够自主生成假设、运行实验、分析数据并撰写科学论文,图表理解能力也更强。

2025-04-10 16:42:38 1229

原创 斯坦福2025 AI指数出炉!中美AI终极对决差距仅剩0.3%,DeepSeek领衔

在MMLU基准测试中达到GPT-3.5水平(MMLU准确率64.8%)的AI模型调用成本,已从2022年11月的20美元/每百万token,骤降至2024年10月的0.07美元/每百万token(谷歌DeepMind的Gemini-1.5-Flash-8B模型),18个月内AI成本下降280倍。在2024年,TOP1和TOP10的模型的差距能有12%,但如今,它们的差距已经越来越小,锐减至5%。在2024年,90%的知名AI模型来自企业,美国以40个模型领先,中国有15个。

2025-04-09 11:56:41 787

原创 迈向机器人领域ImageNet,大牛Pieter Abbeel领衔国内外高校共建RoboVerse,统一仿真平台、数据集和基准

在 AI 与机器人技术飞速发展的今天,RoboVerse 的出现,无疑为机器人社区带来了更好的资源整合机会和更大的协同发展潜力。Real2Sim 工具链:RoboVerse 支持从现实世界单目视频中重建可用于仿真的 3D 资产,基于 3DGS(3D Gaussian Splatting)等先进技术,打通从现实到仿真的通道,大大降低了仿真环境构建的门槛。来自 UC 伯克利、北京大学等机构的研究人员打造了 RoboVerse,一个统一的平台、数据集与评测体系,专为可扩展、可泛化的机器人学习而生。

2025-04-09 11:55:55 562

原创 Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车

尽管 Maverick 在 LM Arena 测试中排名第二,但不少研究人员发现,公开可下载的 Maverick 与托管在 LM Arena 上的模型在行为上存在显著差异。将模型针对基准测试进行优化、保留优化版本,然后发布一个「普通」版本的问题在于,这使得开发者难以准确预测模型在特定场景下的表现,存在误导性。Meta 在公告中提到,LM Arena 上的 Maverick 是「实验性聊天版本」,与此同时官方 Llama 网站上的图表也透露,该测试使用了「针对对话优化的Llama 4 Maverick」。

2025-04-08 14:49:57 757

原创 Llama 4训练作弊爆出惊天丑闻!AI大佬愤而辞职,代码实测崩盘全网炸锅

来源 | 新智元Meta前脚刚发Llama 4,后脚就有大佬请辞了!一亩三分地的爆料贴称,经过反复训练后,Llama 4未能取得SOTA,甚至与顶尖大模型实力悬殊。为了蒙混过关,高层甚至建议:在后训练阶段中,将多个benchmark测试集混入训练数据。在后训练阶段中,将多个benchmark测试集混入训练数据。最终目的,让模型短期提升指标,拿出来可以看起来不错的结果。这位内部员工@dliudliu表示,「自己根本无法接受这种做法,甚至辞职信中明确要求——不要在Llama 4技术报告中挂名」。

2025-04-08 14:48:28 780

原创 Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek

由下表可知,Llama 4 Maverick 是同类中最佳的多模态模型,在编码、推理、多语言、长上下文和图像基准测试中,其性能超过了类似模型如 GPT-4o 和 Gemini 2.0,并且在编码和推理方面与规模更大的 DeepSeek v3.1 具有竞争力。此外,在训练过程中动态过滤掉零优势的提示,并构建包含多种能力的混合提示训练批次,这些措施在数学、推理和编码方面为模型带来了显著的性能提升。Meta 还发现,先进行轻量级监督微调(SFT),再进行大规模强化学习(RL),能够显著提升模型的推理和编码能力。

2025-04-07 17:57:32 971

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除