o1方法的推理能力无上限?LeCun怒怼:两层网络还可以万能近似呢

ea7c3fb40ab6ad57bbca2bf4f80565e8.jpeg

来源:AI科技前沿

OpenAI的o1大模型一经亮相,AI界便热议如何复制其成果。OpenAI对技术细节严格保密,试图从AI中获取完整推理过程,稍有过问即遭警告。技术报告中也难以寻觅线索。

于是,研究者们转向先前类似研究,试图挖掘线索。例如,Google Brain推理团队创始人Denny Zhou在5月发布的论文《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》,作者阵容强大,包括Denny Zhou、斯隆奖得主马腾宇及他的两位学生。

链接:https://arxiv.org/abs/2402.12875        

Denny Zhou宣称,通过让Transformer生成充足的中间推理tokens,已证明其能解决所有问题,并赋予LLM推理无限潜能。论文核心在于展示思维链(CoT)极大增强了Transformer的表述能力,使其能应对更复杂问题。

加入 CoT

单层的 Transformer 也能做复杂推理题

长久以来,寻求Transformer架构突破的努力不断。尽管Transformer擅长并行处理,但在串行推理上存在局限。论文作者提出CoT可助Transformer实现串行计算。他们运用电路复杂性来探讨Transformer的能力,电路复杂性按难度分为多个层级,如:

·AC⁰:仅含AND、OR、NOT门,层次有限,常用于解决基础并行计算问题。

·TC⁰:在AC⁰基础上,引入多数决定门,提升并行计算复杂性处理能力。

先前研究证实,纯解码器结构的 Transformer 可高效并行计算,但其计算局限,仅能处理 TC⁰级电路问题。在更严格的限制下,不使用多数决策门,Transformer 的计算能力仅限于 AC⁰级问题。         
         
研究发现,无CoT时,Transformer的串行计算次数受限于模型深度,深度越高,处理串行计算步数越多,但深度固定,无法随任务扩展。引入CoT后,问题得以解决,使Transformer能生成T步中间步骤,提升串行计算次数至T。   

f2ac11bdc63f38ba87de477a3b15790d.jpeg

研究进一步证实,当Transformer的嵌入维度与输入序列长度的对数成正比,并采用T步中间层时,该模型可模拟T位布尔电路,进而攻克P/poly类难题。若T线性增加,Transformer便

能应对所有正则语言问题,乃至S₅等复杂群组合问题。为验证理论,作者通过实验对比了引入CoT前后,Transformer在处理模加法、排列组合、迭代平方及电路值四个关键任务上的成效,实验在三种不同配置中进行。

·Base模式:模型直接输出预测,核心是缩小预测值与实际值之间的误差。

·CoT 模式:针对每问题,手动构建思维链,检验模型对思维链中各 token 的预测准确性。

·提示模式:向模型输入部分提示,以优化其生成过程。对Base和Hint模式,均直接评定最终答案的正确性。

模加法(Modular Addition):         
给定正整数 p,目标是用模运算求词表和。序列 x 由 {0, 1, ..., p-1} 采样生成,xₙ设为 '='。引入 CoT 后,浅层 Transformer 在短序列表现佳,长序列则更优。         
         
排列组合(Permutation Composition):         给定 p,对 {1, ..., p, (,), =} 排列组合,输出整合结果。CoT 下,Transformer 部分计算结果。                   

迭代平方(Iterated Squaring):         密码学中用于加密算法,计算难度高。Transformer 计算 rⁿ mod p,CoT 下准确率稳定。          

         
电路值问题(Circuit Value Problem):         
计算电路值,序列长度短时准确,长序列用 CoT 可达高准确率。         
         
CoT 显著增强 Transformer,引发对 AGI 距离的思考。论文争议多,涉及幻觉问题、意义推理、实时学习限制等。模拟门电路等实验需在真实环境中验证,计算资源需求大。对 AGI 的实现路径,业界存在不同看法。   

CoT虽强大,但仅靠其扩展并非万能。论文提出一种构建Transformer权重的通用理论,有望提升特定任务适应度。尽管模型深度固定,CoT长度可长,但其权重能否通过梯度下降有效学习,尚待验证。

          
相较之下,人类推理简明高效,即便面对未知问题,也能迅速找到解决核心。田渊栋认为,探究如何构建这种表示,是一大迷人课题。他用生动比喻阐述此观点:仿佛「两层神经网络理论上可拟合所有数据,我们便盲目应用于各类场景」。

         
Yann LeCun 见状学生评论,亦发声支持:「我正想谈论此事,渊栋已抢先一步。」          
作为“深度学习三巨头”之一,LeCun 表示:「两层网络及核机器可无限逼近任何函数,故无需深度学习。从1995至2020,我多次听闻此论点!」   

     3c5a926e6a6de8320f1fd8871c35b366.jpeg他进一步阐释:「理论可行,但实际应用中,两层网络可能导致第一层神经元数量过多,难以操作。」          

针对“两层MLP”比喻问题,生物学领域AI研究实验室EvolutionaryScale联合创始人Zeming Lin提出观点:     

   
「我认为需为机器学习模型构建类似乔姆斯基层次结构的框架,如NP、P、O(n^2)等概念,明确Transformer或Mamba的层次定位。」       

   
田渊栋赞同:「涉及数据分布、模型架构、学习算法、后处理等多方面,问题复杂度远超预期。」          

尽管田渊栋可能不完全同意论文思路,但仍认可持续尝试的必要性。       

 
而这篇关于CoT提升基于Transformer架构LLM推理能力的论文,却让一向对AGI持保留态度、多次质疑LLM无法实现AGI的LeCun面临更尖锐的挑战:

我犹记你言,LLM(GPT)非AI,且难至AGI,因其缺乏推理能力。

然而,凭借CoT+RL,它如今已具备推理能力。该论文仅确认了先前工作的正确性,继续保持着一贯的准确性。

Meta 对通往 AGI 的主流途径持保留态度,这并非仅因个人情感。     

   

或许正如网友所言,“似乎有人已掌握拓展CoT的方法,OpenAI对此信心满满。”而对于争论的核心——CoT能否使Transformer解决一切问题,还需更多研究来证实。

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或点击本文左下角“阅读原文”进入。

3ee70745eefcb48ac9dd07a144da359b.png

内容概要:本文档详细介绍了Android开发中内容提供者(ContentProvider)的使用方法及其在应用间数据共享的作用。首先解释了ContentProvider作为四大组件之一,能够为应用程序提供统一的数据访问接口,支持不同应用间的跨进程数据共享。接着阐述了ContentProvider的核心方法如onCreate、insert、delete、update、query和getType的具体功能与应用场景。文档还深入讲解了Uri的结构和作用,它是ContentProvider中用于定位资源的重要标识。此外,文档说明了如何通过ContentResolver在客户端应用中访问其他应用的数据,并介绍了Android 6.0及以上版本的运行时权限管理机制,包括权限检查、申请及处理用户的选择结果。最后,文档提供了具体的实例,如通过ContentProvider读写联系人信息、监听短信变化、使用FileProvider发送彩信和安装应用等。 适合人群:对Android开发有一定了解,尤其是希望深入理解应用间数据交互机制的开发者。 使用场景及目标:①掌握ContentProvider的基本概念和主要方法的应用;②学会使用Uri进行资源定位;③理解并实现ContentResolver访问其他应用的数据;④熟悉Android 6.0以后版本的权限管理流程;⑤掌握FileProvider在发送彩信和安装应用中的应用。 阅读建议:建议读者在学习过程中结合实际项目练习,特别是在理解和实现ContentProvider、ContentResolver以及权限管理相关代码时,多进行代码调试和测试,确保对每个知识点都有深刻的理解。
开发语言:Java 框架:SSM(Spring、Spring MVC、MyBatis) JDK版本:JDK 1.8 或以上 开发工具:Eclipse 或 IntelliJ IDEA Maven版本:Maven 3.3 或以上 数据库:MySQL 5.7 或以上 此压缩包包含了本毕业设计项目的完整内容,具体包括源代码、毕业论文以及演示PPT模板。 项目配置完成后即可运行,若需添加额外功能,可根据需求自行扩展。 运行条件 确保已安装 JDK 1.8 或更高版本,并正确配置 Java 环境变量。 使用 Eclipse 或 IntelliJ IDEA 打开项目,导入 Maven 依赖,确保依赖包下载完成。 配置数据库环境,确保 MySQL 服务正常运行,并导入项目中提供的数据库脚本。 在 IDE 中启动项目,确认所有服务正常运行。 主要功能简述: 用户管理:系统管理员负责管理所有用户信息,包括学生、任课老师、班主任、院系领导和学校领导的账号创建、权限分配等。 数据维护:管理员可以动态更新和维护系统所需的数据,如学生信息、课程安排、学年安排等,确保系统的正常运行。 系统配置:管理员可以对系统进行配置,如设置数据库连接参数、调整系统参数等,以满足不同的使用需求。 身份验证:系统采用用户名和密码进行身份验证,确保只有授权用户才能访问系统。不同用户类型(学生、任课老师、班主任、院系领导、学校领导、系统管理员)具有不同的操作权限。 权限控制:系统根据用户类型分配不同的操作权限,确保用户只能访问和操作其权限范围内的功能和数据。 数据安全:系统采取多种措施保障数据安全,如数据库加密、访问控制等,防止数据泄露和非法访问。 请假审批流程:系统支持请假申请的逐级审批,包括班主任审批和院系领导审批(针对超过三天的请假)。学生可以随时查看请假申请的审批进展情况。 请假记录管理:系统记录学生的所有请假记录,包括请假时间、原因、审批状态及审批意见等,供学生和审批人员查询。 学生在线请假:学生可以通过系统在线填写请假申请,包括请假的起止日期和请假原因,并提交给班主任审批。超过三天的请假需经班主任审批后,再由院系领导审批。 出勤信息记录:任课老师可以在线记录学生的上课出勤情况,包括迟到、早退、旷课和请假等状态。 出勤信息查询:学生、任课老师、班主任、院系领导和学校领导均可根据权限查看不同范围的学生上课出勤信息。学生可以查看自己所有学年的出勤信息,任课老师可以查看所教班级的出勤信息,班主任和院系领导可以查看本班或本院系的出勤信息,学校领导可以查看全校的出勤信息。 出勤统计与分析:系统提供出勤统计功能,可以按班级、学期等条件统计学生的出勤情况,帮助管理人员了解学生的出勤状况
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值