OpenAI科学家：现有模型+后训练足以产生黎曼猜想的新证明-CSDN博客

本文链接：https://blog.csdn.net/cxyxx12/article/details/146008696

一个全新的模型能力衡量指标诞生了？！

OpenAI科学家塞巴斯蒂安・布贝克（Sebastien Bubeck）（下图左）表示：

AI模型的能力可以用AGI时间来衡量：

GPT-4可以完成人类需要几秒或几分钟的任务；o1 可以完成人类需要若干小时完成的任务，也就是可以用“AGI小时”衡量的任务；明年，模型可能会实现AGI日，并在3年后实现AGI周，能够解决重大的开放问题。

在这里插入图片描述

看到AGI时间这个新概念，网友们也是立即就展开了热烈的讨论。

有人认为，如果模型可以达到人类需要数周或数月才能完成的任务，也就代表它可以将长期推理和计划结合起来，也就和真正的AGI差不多了：

在这里插入图片描述

不过也有人表示这个说法有点模糊，人脑也很难机械地把任务完成时间限定为几个月、几年：

在这里插入图片描述

而反方辩手汤姆·麦考伊（Tom Mccoy）则对LLM能否解决复杂的开放性问题持怀疑态度。

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》，包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴，可以VＸ扫描下方二维码免费领取🆓

他表示，语言模型虽令人惊叹，但能力源于训练数据，目前没有证据显示它们可以产生能解决开放问题的新范式。

让两位大佬争论不休的问题，就是最近由世界知名理论计算机科学机构Simons Institute提出的辩题：

当前基于缩放定律的LLM，能否在未来几年内产生可以解决重大数学难题（如P≠NP、黎曼假设）的证明技术。

持正方观点的塞巴斯蒂安・布贝克是应用数学博士，曾在普林斯顿大学担任助理教授，后在微软研究院任职十年，主导开发了 Phi 系列小语言模型，也是Sparks of AGI（AGI的火花）论文的重要作者之一。

此次辩论中，塞巴斯蒂表示他坚信LLM潜力无限，认为以当前模型的能力加上更多的数据和后期训练就足以解决数学难题。

反方辩手汤姆是认知科学博士，现任耶鲁大学语言学助理教授，

他也是“Embers of Autoregression（自回归余烬）”论文的主要作者，文中他深刻剖析了当前LLM的局限性。

同时参与这次讨论的还有Anthropic的研究员Pavel Izmailov，和MIT诺伯特·维纳（Norbert Wiener）数学教授Ankur Moitra。

在这里插入图片描述

在不改变原意的基础上，量子位对本次辩论的主要观点进行了梳理总结，希望能带给你更多的启发和思考。

正方：o1已展现出自发的涌现模式

塞巴斯蒂安首先用数据回顾了LLM最近几年的发展历程，他表示GPT系列已在多领域的基准测试上都表现亮眼。

比如在MMLU测试中，GPT-4 成绩飙升至 86%，o1 模型更是逼近 95%，远超 GPT-3 的 50%，在高中科学知识问答方面已接近人类 90% 的水平。

在医学诊断领域，GPT-4 准确率高达 90%，远超人类医生的 75%，有力证明了模型强大的学习与应用能力，且这种提升趋势为解决数学难题奠定基础。

在这里插入图片描述

△图片来自论文Superhuman performance of a large language model on the reasoning tasks of a physician

他进一步指出：

智能发展层级递进显著，GPT-4只有AGI秒级思考能力，而o1模型已达AGI分钟甚至小时级别。

依此趋势，未来实现AGI日级、周级思考时长指日可待，可能明年、后年就能达到。

届时，模型将拥有充足时间和能力深入思考复杂数学问题，从而找到解决重大猜想的路径。

同时他还强调了后训练技术的重要性：后训练技术是挖掘模型深层潜力的关键。

从GPT-3.5开始，模型就可以实现在后训练过程中提取智能。到了o1模型时代，其采用的强化学习等创新训练范式，使模型在复杂任务（比如编程、数学）处理上实现质的飞跃。

尤其是在特定数学问题中，o1能迅速关联看似不相关的知识概念，自发地涌现出一些新的思路，为解决难题提供新线索。

在这里插入图片描述

反方：当前缩放定律依赖数据、存在幻觉，难以产生新思考模式

汤姆则认为，目前LLM的发展存在3个明显制约：

1.LLM受训练数据频率限制严重：

在单词计数和排序任务中，数据频率影响清晰可见。如统计单词数量时，对常见长度列表准确率高，罕见长度则大幅下降；排序任务中，对常用的字母正序处理良好，逆序则表现不佳。

这表明模型在面对新证明技术这类低频任务时，缺乏创造性突破的根基，难以跳出训练数据的固有模式。

而且，根据各种测评数据，模型能力与数据量级呈对数关系，未来想要提升模型能力需要新的指数级数据，而目前已有严重数据瓶颈，在未来几年很难迅速突破。

2.长推理过程中的幻觉问题是致命伤：

即使类o1模型在多步推理场景下进步显著，但LLM仍易生成错误信息。随着数学证明篇幅拉长，极低的错误率也会因累积效应使证明失效。

也就是人们常说的**“薄弱环节会破坏整个推理链条”**，严重阻碍模型解决复杂数学证明的能力。

o1已经可以和人类专家合作，但想要独自解决数学问题，必须做到超越人类，目前看起来比较困难，甚至还无法达到以稳健的方式使用现有想法。

在这里插入图片描述

3.当前缩放方法本质缺陷难破：

基于语言预测的训练模式，使模型在处理数学问题时难以直接触及深度推理和创新思维核心。

比如在数学符号处理和抽象逻辑推导方面，模型的处理方式与专业数学方法相比缺乏专业推导，需要从底层架构和训练理念上进行彻底变革。

随后正方还对反方观点进行了驳斥。

塞巴斯蒂安表示，当前很多人类的顶级成果是依靠组合现有知识产生的，而模型在这个方面的能力会通过强化学习进一步发展。

而且人类在超过50页的证明中也经常会出错，未来可以让不同的智能体进行合作互相指正，可以有效减少这一方面的失误。

其他专家：需结合证明验证器、符号空间探索等方式

Anthropic研究员帕维尔・伊斯梅洛夫也发表了观点，他认为LLM在识别数据结构上确有优势，但数学领域专业性强，需借助强化学习与Lean等证明验证器构建有效训练机制。

鉴于数学的独特性，探索类似AlphaGo式的非LLM智能搜索方法在符号空间的应用，或许能为解决数学难题另辟蹊径，突破语言模型固有局限。

针对观众的提问“飞机也不是完全模拟鸟类的飞行，为什么一定要要求LLM模拟人类思维”的问题，帕维尔首先表示赞同，AlphaGo带给人类的一个惊喜正是来自于它可以用很多人类没有的方法下棋。

但同时他也指出：

也许以人类的方式做事的唯一理由是，如果我们关心的是试图理解证明、并提取一些定义之类的东西，那么我们希望它至少是类人或人类可读的。但我认为如果我们关心的是证明能力，比如能够证明事物，那么不一定要以类人的方式。

MIT诺伯特·维纳数学教授安库尔・莫伊特拉（Ankur Moitra）也发表了自己的看法。

他也赞同重大数学问题的解决绝非简单的能力堆叠：

我们关心数学难题，关心的不只是具体的证明细节，更希望可以在证明的过程中产生可以引发数学体系变革的新想法。

他认为当前LLM 虽在部分任务取得进展，但与解决如黎曼假设这类问题所需的深度和创新性仍相距甚远。

安库尔还提议，未来模型发展或许应聚焦于知识在模型中的有效表示、数学家与模型间的高效协作模式等关键层面，探索新的突破方向。

现场还进行了一次不记名投票，可以看到正反方的观点基本还是持平的～

在这里插入图片描述

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料。包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。
一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

😝有需要的小伙伴，可以VＸ扫描下方二维码免费领取🆓

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程扫描领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。
在这里插入图片描述

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程扫描领取哈）
在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（全套教程扫描领取哈）
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程扫描领取哈）
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程扫描领取哈）
在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

OpenAI科学家：现有模型+后训练足以产生黎曼猜想的新证明

正方：o1已展现出自发的涌现模式

△图片来自论文Superhuman performance of a large language model on the reasoning tasks of a physician

反方：当前缩放定律依赖数据、存在幻觉，难以产生新思考模式

其他专家：需结合证明验证器、符号空间探索等方式

如何学习AI大模型 ？

如何学习AI大模型？