AIBigModel-CSDN博客

原创苹果OS全家桶12年最狠升级！AI入侵一切，唯独Siri没更

在FaceTime通话中，可以看到实时翻译的字幕，还能听到对方的原声。更牛的是，快捷指令现在能直接用Apple Intelligence，开发者也能直接调用核心的本地大模型，做出又快又强、还特别注重隐私的功能，哪怕没网也能用。此外，你还能直接调用Apple Intelligence的模型，包括设备上的本地模型，以及私有云计算（Private Cloud Compute）。比如，一个学生可以创建一个快捷指令，用Apple Intelligence模型把课堂讲座的音频转录和自己的笔记对比，补上漏掉的重点内容。

2025-06-11 19:00:19 521

原创大模型是「躲在洞穴里」观察世界？强化学习大佬「吹哨」提醒LLM致命缺点

在许多方面，视频预测甚至更吸引人、更强大，因为视频包含的信息量远超文本（正如 AI 大牛 Yann LeCun PPT 中的「蛋糕」），视频数据随处可得 —— 只需要把摄像头对准繁忙的街道就行，而且视频不仅能捕捉人类的语言交流，还能展现整个物理世界的丰富细节。未来十年，AI 研究面临的关键挑战是：既要从大语言模型的成功中汲取正确的经验，又要发现支撑真正灵活、适应性智能的基本原理 —— 那种能够从经验中学习、理解物理世界、为人类从未解决过的全新问题找到创新解决方案的智能。如果真是这样，那就太令人兴奋了。

2025-06-11 18:58:34 934

原创最新！Ilya现身多大毕业演讲：AI会完成我们能做的一切

他指出，我们正生活在人类历史上最不寻常的时代 ——AI 时代，AI 最终将能够完成人类所有的工作，这将带来人类有史以来最大的挑战，但也蕴含着最大的机遇，因此我们每个人都需要积极观察 AI 的发展，培养对其能力的直觉，并为即将到来的深刻变革做好准备。但总的来说，通过观察 AI 的能力，在关键时刻不忽视它的发展，这将产生我们克服 AI 带来的巨大挑战所需的动力。我感觉到，尤其是我认为它对我们未来的影响是巨大的。当我还是这里的学生时，多伦多大学正在做世界上最好的 AI 研究，有最革命性的想法，最令人兴奋的工作。

2025-06-10 12:05:29 375

原创为什么说Agent是一场持久战？Kimi技术大牛的深入分析

2025年被认为是"The Year of Agent"，是大模型从Chatbot转向可执行动作的Agent的一年。我们也确实在去年年底到现在看到了很多Agent相关的产品或协议出现：MCP/A2AManusGenSpark...这让我们看到了AGI到来的曙光。一旦Agent能替代80%的人类白领工作，那么AGI也就可以认为得到了实现。作为技术乐观主义者，我曾对此充满信心，并认为这是在1-2年内可实现的目标。这样的信心来自于过去一年我们看到的大模型在很多benchmark上快速饱和。

2025-06-10 12:04:40 885

原创全球首个全栈开源通用AI Agent，从需求规划到结果交付一站式搞定！

Lemon 是一款开源的General AI Agent通用智能体，能够从需求计划到成果交付全流程自动化，它通过独立思考和系统规划，在虚拟环境中灵活调用各类工具，如编写并执行代码、智能浏览网页、操作网页应用、命令执行等。Lemon 擅长将复杂任务系统化分解并有序执行，自动分析任务、安排步骤优先级、动态调整计划，并实时跟踪进度。旨在助力用户高效完成各类任务。

2025-06-09 15:29:06 609

原创苹果炮轰推理模型全是假思考！4个游戏戳破神话，o3/DeepSeek高难度全崩溃

来源 | 量子位苹果最新大模型论文，在AI圈炸开了锅。有人总结到：苹果刚刚当了一回马库斯，否定了所有大模型的推理能力。这篇论文称推理模型全都没在真正思考，无论DeepSeek、o3-mini还是Claude 3.7都只是另一种形式的“模式匹配”，所谓思考只是一种假象。再遇到真正高复杂度的任务时所有模型都会崩溃，即使给他们足够的时间和计算资源也无济于事。作者中包括谷歌大脑创始人之一Samy Bengio（图灵奖得主Yoshua Bengio的弟弟）。

2025-06-09 15:28:29 973

原创美国将允许出口 GPU：但需由美国 IDC/云服务商运营

这项规定是在拜登政府任期末期仓促通过的。2025 年 6 月 4 日，美国商务部部长。确保新的管制措施不会阻碍美国向盟友出口。表示，美国商务部正在起草一项替代。，波兰总理找到我，质问我。后来告诉《出口合规日报》说得更具体，但很快就会。表示，上个月被撤销的。做了什么，你们竟然把。商务部将很快发布新的。

2025-06-09 15:27:57 253

原创 RLHF已死，RLVR引爆AGI革命！Claude 4核心成员万字对谈

来源 | 新智元在Dwarkesh Patel主持的节目中，Anthropic的Sholto Douglas、Trenton Bricken等人，一起讨论了Claude 4是如何思考的。三人私交甚好，聊了2小时20多分钟，主要集中在4个话题：1. 过去一年中人工智能研究的变化；2. 新的强化学习（RL）体系以及其可扩展性；3. 如何追踪模型的思考过程；4. 各国、劳动者和学生应如何为通用人工智能（AGI）做准备。对于Sholto Douglas的「AI取代人类白领工作」观点，网友纷纷表现出了极大的兴趣。强化

2025-06-08 20:27:14 704

原创 Google研究发现：Multi-Agent的核心竟然是Prompt设计！

在数学问题上，Gemini 1.5 Pro 对比仅使用自我一致性（SC）、自我细化（reflect）和多智能体辩论（debate）进行扩展的智能体，展示了每个问题的提示优化智能体的准确率与总标记数的关系。提出的多智能体系统搜索（Mass）框架通过在可定制的多智能体设计空间中交错进行提示优化和拓扑优化，发现了有效的多智能体系统设计（右侧为经过优化的拓扑结构和优化的提示），关键组件如左侧所示。：Mass在优化过程中表现出稳定且有效的性能提升，与现有自动设计方法相比，具有更高的样本效率和成本效益。

2025-06-08 20:26:35 238

原创张祥雨访谈精华版：多模态大模型研究的挣扎史和未来

2012 年出了 AlexNet，当时正值大数据集出现（ImageNet）、算力大幅提升（Nvidia）的时期，AlexNet 把当时的神经网络扩大了两个数量级，取得了巨大成功延续做大神经网络的思路，在 12-16 年读博期间，宽度放大：做了 MSRA Init，比较好解决了模型不好开始训起来的问题；深度放大：做了 ResNet（听说当时他们显存最大装下 ResNet 152层），甚至后续用一些技术可以加到上千层模型大了以后，瓶颈重新变成算力和数据。17 年以后祥雨在旷视继续做小模型。

2025-06-07 09:21:30 902

原创新版Gemini 2.5所有榜一，谷歌无敌了！一个月全面击败o3，编程反超Claude 4

仅一个月的时间，Gemini 2.5 Pro（06-05）直接干趴了I/O大会放出的Gemini 2.5 Pro（05-06）。新版Gemini 2.5 Pro（06-05）和旧版Gemini 2.5 Pro（05-06），名字后面版本的时间，值得玩味。相较于上一代，Gemini 2.5 Pro整体Elo提升了24分，尤其是在Web Arena上Elo提升了足足35分。而且，Gemini 2.5 Pro（06-05）还引入了「思考预算」，最高达32k，还改进了函数调用等功能。

2025-06-07 09:20:49 441

原创 Cursor 1.0首个大版本来袭！自动捉bug，秒改屎山代码，AI编程分水岭已至

如果你是一名MCP开发者，只需在文档和README中加入「Add to Cursor」按钮，就能轻松让其他开发者使用你的服务器。Cursor现在能在对话中直接渲染可视化内容，比如Mermaid图表和Markdown表格，生成后直接可见，超方便！现在，你可以一键在Cursor中设置MCP服务器，结合OAuth支持，轻松完成支持该协议的服务器认证。记忆功能让Cursor能记住对话中的关键信息，未来可随时引用。）按钮后，可以直接跳转到Cursor编辑器，就会看到填充好的修复建议，进而快速解决问题。

2025-06-06 14:54:56 283

原创好的 founder 都懂的道理：taste 才是 AI 创业最大的壁垒

最优秀的销售代表明白，每一次与潜在客户的互动，都在教他们如何理解你的产品。出色的演示能让你的产品限制显得合情合理，让你的观点显得不言而喻。Datadog 的创始人 Olivier Pomel 对客户有着极强的同理心，但他多年来一直拒绝客户提出的深度、分层权限结构，并解释说这与 Datadog 的协作理念相悖，而协作才是客户真正想要的。突然间，你不再孤单。真正没品位的是令人尴尬的社交内容，敷衍了事的邮件轰炸，2003 年风格的 PowerPoint 模版，以及那些连自家产品功能都说不清的销售代表（SDR）。

2025-06-06 14:54:15 812

原创 00后中国女孩0产品创业实现3亿估值：斯坦福数学博士的AI量化野心

来源｜量子位斯坦福华人数学博士AI创业，0产品0用户，目标估值3亿美元。方向瞄准数学AI，要为量化和对冲基金公司提供可解决实际数学问题的模型能力。（嗯，打造了DeepSeek的幻方量化，也是用AI来做投资量化）

2025-06-05 16:52:44 644

原创重磅开源！首个全异步强化学习训练系统来了，SOTA推理大模型RL训练提速2.77倍

由于推理模型的输出长短差异极大，在同样的批大小（batch size）下，RL 训练必须等待批次中最长的输出生成完才能继续进行训练，以及进行下一个批次的数据收集，造成极大 GPU 资源浪费。staleness 表示当采用一个批次的数据进行模型训练时，生成最旧的一条数据的模型版本和当前更新的模型版本之间的版本差（比如，一个批次中最旧的一条数据由 step 1 产生的模型输出，当前模型由 step 5 产生，则该批次 staleness=4）。带有奖励值的轨迹数据会被存入回放缓冲区，等待训练器进行训练。

2025-06-05 16:52:10 532

原创惊人天价！台积电1.4nm晶圆成本曝光

此外，先前也传出Google的高层造访台积电的消息，可能是为了Pixel智能手机的芯片Tensor G5将采用3纳米制程的合作而到访，预计这项合作伙伴关系将持续至少达五年之久，也使得Google成为台积电的长期客户之一。指出，台积电正持续发展其最先进制程技术，但随之而来的是晶圆生产成本的显著飙升，即使是对其获利最丰厚的客户，面对如此高昂的晶圆生产成本，也可能需要再三考虑下单的可能性。根据市场消息指出，紧随2纳米之后的1.4纳米制程（A14），也被称为埃米（Angstrom）制程，其成本预计将进一步攀升。

2025-06-05 16:51:34 283

原创经典ReLU回归！重大缺陷「死亡ReLU问题」已被解决

与所提出的 B-SiLU 替代函数结合使用时，VGG-16 在 CIFAR-10 和 CIFAR-100 数据集上的测试准确率分别提升了 10 个百分点和 16 个百分点，而 ResNet-18 与未使用 SUGAR 的最佳模型相比，分别提升了 9 个百分点和 7 个百分点。对 VGG-16 层激活的深入分析表明，当应用 SUGAR 时，激活分布发生了明显的变化，为其在缓解消亡 ReLU 问题中的作用提供了直观证据，同时促进了更稀疏的表示。在深度学习领域中，对激活函数的探讨已成为一个独立的研究方向。

2025-06-04 17:21:12 1097

原创 Science披露：近3年，垃圾论文激增，92%来自中国

西北大学的Reese Richardson表示，其他研究人员在一些课题中也发现了类似现象，"这种免费数据源让几乎任何人都可以采用已知的研究方法，然后换上新的变量，以一种‘疯狂研究’的姿态创造出新的‘发现’。”他补充道，研究人员为了自身职业发展，往往选择发表更多的论文而不是更高质量的论文。Spick团队的报告指出，近年来基于NHANES数据库的低质论文泛滥，可能是“论文工厂”的运作、人工智能生成文本的滥用以及大型公共数据库的成熟共同促成的。，而在2021年之前的论文中，这一比例仅为8%。

2025-06-04 17:20:11 289

原创陶哲轩痛诉很缺钱！科研经费暴跌67%十年最低，自掏腰包科研

陶哲轩的警告掷地有声。也体现在另一面——给出了此类效率的理论上限，从而设定了正确的评估基准，避免在数学上不可能的编码方案上浪费资源。当科研经费只够你证明一个想法似乎可行，却不足以让你深入挖掘、系统研究、培养团队时，那么，所谓的创新，可能就真的只能永远停留在「概念」阶段了。「事实证明，」陶哲轩解释道，「在探索这些高维版本的球体堆积问题时产生的许多数学技巧和见解，对于解决这个问题价值巨大。基础数学的探索，正是这样一种对事物本质的极致追问，它剥离掉现实的复杂表象，去触碰最底层的逻辑和结构。

2025-05-28 14:05:24 1123

原创 DeepSeek最新模型意外泄露~

如果信息属实DeepSeek-V3-0526应该很快就会发布，毕竟马上又要端午节了，犹记得五一前国内大模型厂商那一波组团发布，那么问题又来了，万众期待的DeepSeek R2还有多远？DeepSeek-V3-0526模型性能媲美 GPT-4.5 / Claude Opus 或将成为最强开源模型。来源 | PaperAgent。

2025-05-28 12:21:38 615

原创陕西一高中生与教授父亲共同署名发表3篇SCI论文，父亲同事：学校已调查清楚，没有任何问题，他们都很努力！多方回应

陕西省西安中学国际部的官网消息显示，张某苒是该校2024届学生，曾多次获国际大赛奖项，其中包括2023年英国生物测评（BBO）全球金奖、2022年美国生物奥林匹克竞赛金奖、2022年澳大利亚化学测评（ASOC）全球二等奖等。此外，在另外两篇分别发表于2023年、2024年的英文论文当中，张某苒分别以第三作者和第一作者的身份与张某莺共同署名。近日，有网友报料称，陕西省西安中学国际部2024届学生张某苒多次以作者身份发表SCI论文，而这些论文的作者中还有她的父亲陕西理工大学教授张某莺。

2025-05-28 12:20:34 273

原创刚刚，北大校友Lilian Weng自曝公司首个产品？一篇论文未发，估值却已90亿

其实，分享出这个视频的，是前谷歌DeepMind员工Stephen Roller，后来，他又跳到了Character AI，现在来到了Thinking Machines Lab。但我们对ChatGPT的愿景，是让它无论你身在何处，都能陪伴你的整个生活。而且，他还发现了一件事，就是很多人在训练出不错的模型但达到瓶颈后，通常不会尝试分支搜索，即不会把这个模型衍生出几个不同学习率的训练路径。我们希望ChatGPT成为█████████████████████████████████████████████。

2025-05-27 14:10:57 1046

原创马斯克重磅官宣

此前，马斯克旗下社交平台X在24日早间发生大规模宕机，目前服务已基本恢复。马斯克强调，本周社交媒体平台X出现运行中断，显示亟需进行重大运营改进，平台应该有应对故障的灾备冗余，但未能起效。此外，马斯克于5月20日在卡塔尔经济论坛上还强调，未来他将减少在政治领域的支出，自己已经做得够多了。当地时间5月24日，马斯克在社交媒体X平台宣布，他已经重新回到7×24小时工作的状态，还要“睡在会议室、服务器机房或工厂里”。他表态称：“我必须全神贯注于X/xAI和特斯拉，还有下周的星舰发射，因为我们正推出关键技术。

2025-05-27 14:10:26 278

原创全球第一AI科学家天团，首战封神！2.5个月找到治盲新药，医学圈震撼

团队介绍说，为了生成针对干性AMD的新型治疗候选药物，他们创建了一个管线，把三个智能体Crow、Falcon（文献综述智能体）和Finch（原型数据分析智能体）连接了起来。AI科学家智能体，这次直接包办了写论文所需的全过程，人类根本无需插手——它生成了假设、设计了实验、分析了数据、进行了迭代，甚至为论文制作了图表。中间的Ali，是一名临床科学家，正在公司建立药物研发管线。这应该是人类首次做到，让AI将假设生成、实验和数据分析以闭环的形式连接起来，这也标志着，智能体推动的科学发生速度，从此会大幅加快！

2025-05-26 20:41:42 536

原创深度｜Anthropic首席产品官：从Claude到MCP，最好的AI产品不是计划出来的，是从底层自发长出来的

Mike是Anthropic的首席产品官，曾参与创办Instagram，也在红杉资本的创始人之一，长期专注于产品从0到1的打造。例如，以前我们常常关注一个文档的出处，比如有没有引用、是不是原创，这些问题现在依然重要，但在AI帮助下也变得更容易追踪。我们也在观察OpenAI的一些做法，比如他们可能会对ChatGPT做专门的微调版本，虽然大家主要是通过Chat界面来用它，但背后可能跑的是不同模型。举个例子，当你让模型帮你做点事，它说“我做不到”，但实际上是你没有设计好接口，让它能够调用这些功能。

2025-05-26 20:40:53 932

原创爆！莫迪宣布：印度首颗芯片，诞生！

未来几年，这一贸易额将突破2000亿美元，而东北地区将成为实现这一目标的坚实桥梁。他表示，投资者不仅有机会投资东北地区的工厂和基础设施，而且还有投资该地区制造业的黄金机会。总理表示，稳健的道路、良好的电力基础设施和物流网络是所有行业的支柱。这意味着，稳健的基础设施是任何发展的首要条件，是基础。印度总理纳伦德拉·莫迪周五（5月23日）宣布，印度将很快获得东北地区半导体工厂生产的第一块“印度制造”芯片。莫迪表示，政府正在东北各邦的水电或太阳能领域进行大规模投资，价值数千万卢比的项目已经分配。

2025-05-26 20:40:22 347

原创刚刚！首个下一代大模型Claude4问世，连续编程7小时，智商震惊人类

Claude Opus 4 是 Anthropic 迄今为止最强大的模型，也是全球最强的编码模型，它在 SWE-bench（72.5%）和 Terminal-bench（43.2%）基准上均处于领先地位，在需要专注投入和数千个步骤的长时间运行任务中表现出色，并能够连续工作数小时 —— 其性能远超所有 Sonnet 模型，并显著扩展了 AI 智能体的功能。Anthropic 表示，Claude Opus 4 是一款全球领先的编码模型，它在复杂、长时间运行任务和智能体工作流中拥有持续的高性能。

2025-05-24 18:47:08 515

原创比Gemini Diffusion更全能！首个多模态扩散大语言模型MMaDA发布，同时实现强推理与高可控性

杨灵：普林斯顿大学 Research Fellow，北京大学博士，研究方向为大语言模型、扩散模型和强化学习。田野：北京大学智能学院博士生，研究方向为扩散模型、统一模型及强化学习。沈科：字节跳动 Seed 大模型团队的 AI 研究员，研究方向为大语言模型预训练和统一学习范式。童云海：北京大学智能学院教授，研究领域涵盖多模态大模型、图像/视频的生成与编辑。

2025-05-24 18:45:44 654

原创拒绝不必要Think：微软&北大提出第一种自适应大型混合推理模型

大型推理模型（LRMs）过度冗长的思考过程在token消耗和延迟方面带来了巨大的开销，尤其是对于简单查询来说，这种思考过程往往是不必要的。微软研究院&北大提出了大型混合推理模型（LHRMs），这是第一种能够根据用户查询的上下文信息自适应地决定是否进行思考的模型。为了实现这一目标，提出了一种包含两个阶段的训练流程：以混合微调（HFT）作为冷启动，随后通过提出的混合群体策略优化（HGPO）进行在线强化学习，以隐式地学习选择合适的思考模式。

2025-05-23 10:42:23 486

原创帮大模型提速80%，华为拿出昇腾推理杀手锏FlashComm，三招搞定通算瓶颈

针对 DeepSeek 这类超大规模 MoE 模型的多机多卡推理场景中的通信挑战，华为团队提出了三项关键技术，其中 FlashComm 技术基于相同的集合通信逻辑替大模型推理中的 AllReduce 通信算子，在不改变网络并行方式的前提下，充分利用网络中低维度数据或低比特数据特性进行通信算子位置的编排，实现通信数据量的降低和通信时延的优化，同时消除了计算流程中的冗余计算，进一步提升了网络端到端推理性；而被 MoE 带火的专家并行（EP）就像工厂的流水线，不同的计算节点负责模型不同专家的计算。

2025-05-23 10:41:30 996

原创高通回应小米芯片！

苹果、三星和华为是少数推出自研芯片的企业，而其他众多厂商则依赖高通和联发科等公司的产品。不过，自研芯片的显著优势在于能更好地实现硬件与软件的深度整合，进而为用户提供区别于竞争对手的体验。不过，自研芯片的一大优势在于能够更好地实现硬件与软件的深度整合，从而提供与竞争对手不同的用户体验。另外也可以带来更高的品牌效应，让人觉得拥有自研芯片的企业技术更加高大上。阿蒙称：“我们仍是小米的战略芯片供应商，最重要的是，高通骁龙芯片目前应用于小米的旗舰机型，未来也会继续应用。

2025-05-23 10:40:51 238

原创大模型全面爆发，所有榜一都是Gemini！谷歌一夜站到了台前

只需输入「在更下面的观众席找到两张本周六红人队比赛的平价门票」，AI 模式就会启动查询扇出，跨网站分析数百个潜在的门票选项，并提供实时价格和库存，并处理繁琐的表单填写工作。AI 模式今年早些时候开始在 Google 实验室测试，可以说是谷歌功能最强大的 AI 搜索功能，拥有更先进的推理能力和多模态分析能力，并能够通过后续问题和有用的网络链接进行更深入的探索。此外，从本周开始，谷歌将在美国的 AI Overviews 中引入其最智能的模型 Gemini 2.5 的一个定制版本，以便搜索能够解决更棘手的问题。

2025-05-22 19:38:55 581

原创再见Bug！谷歌超级编码智能体Jules上线，免费使用直连GitHub

登录http://jules.google.com/，点击同步GitHub账号，完成OAuth流程，选择想连接的仓库，然后就可以看到仓库选择器和提示输入框。目前，Codex可以通过ChatGPT的iOS应用访问，开发者可以在移动设备上启动任务、查看差异、请求更改，甚至自动化PR。开发者可以审查计划，通过聊天界面提供反馈，修改特定步骤、指出遗漏或澄清请求，满意后批准，Jules就开始干活写代码啦。简单来说，那些你不想做的编码任务，比如修复Bug、更新版本、编写测试，甚至实现新功能，它都能帮你搞定！

2025-05-22 19:38:26 438

原创震撼全网，AlphaEvolve矩阵乘法突破被证明为真！开发者用代码证实

而和1969年的Strassen方法相比，AlphaEvolve的乘法次数「-1」，这一枚「‑1」不仅刷新了数学纪录，更象征AI‑for‑Science正在成为攻克深层数学难题的新范式。对于〈3,4,7〉、〈4,4,4〉和〈4,4,8〉这三种矩阵情况，AlphaEvolve发现的算法使用了复数乘法，这些算法可用于对复数矩阵或实数矩阵进行精确乘法运算。AlphaEvolve的巨大威力，果然诚不我欺。上面的例子解释了，想要发现新的「算法」，你就需要找到新的「自定义」计算模块，来尽可能减少乘法运算。

2025-05-21 11:22:15 1029

原创大语言模型与小语言模型协同机制综述

广义上讲，大小模型协同是指在一个系统中，大型语言模型与小型语言模型协同工作、优势互补的机制。这一范式可细分为多个研究方向，包括：流水线协同、并行协同、条件触发推理、知识蒸馏等（Wang, Zhang, & Hu, 2024；例如，流水线协同是一种串行执行模式，其中一个模型的输出作为另一个模型的输入（Wang et al., 2024）。通常 SLM 负责前置处理或生成候选结果，再由 LLM 进行复杂推理或知识融合（Gao et al., 2025）。

2025-05-21 11:21:31 884

原创初稿抢先看！13家单位共同起草全国首部AI大模型私有化部署标准

智合标准中心欢迎在私有化部署领域有行业影响力、美誉度的企业、认证咨询机构、研究机构、投资机构和专业人士的积极参与，成为《人工智能大模型私有化部署技术实施与评价指南》团体标准的起草单位和起草人！模型选用部分明确了基本原则和行业共识，以及包括需求分析、初步筛选、综合决策、二次筛选、模型验证等步骤的选用流程，帮助企业选择高效、安全、开源或轻量化的大模型，提高模型选用的。技术实施是核心，安全保密是前提，质量评价是保障，行业案例是参考，通过四方面紧密结合，为大模型的私有化部署提供科学、可行且具有前瞻性的实施路径。

2025-05-20 12:00:21 990

空空如也

空空如也