吕小明么-CSDN博客

原创回顾·总结·展望「融合RL与LLM思想，探寻世界模型以迈向AGI」

不管是回顾以往，总结当下，又或者是展望未来，决定针对「融合RL与LLM思想，探寻世界模型以迈向AGI」这篇达10万字小作文做一下MARK..一方面是在继上一次终稿发布时所经历的1个多月时间结合新事件和作者理解进行一次内容上的再版更新并同步给读者；一方面是因整篇文章比较冗长，且作者平常更多是利用工作之余的碎片时间在尽量保证内容质量下随思而写，内容表述逻辑性和完整性可能会有一些错误，因此再整体总结并阐明一下写作本篇系列文章的初衷、目的和核心概要内容；一方面也是希望能够承上启下，参照依据本篇文章对底层算法技术与之

2024-05-23 07:06:55 1696

原创通往AGI 的「System2·慢思考·快实践」

本次内容为结合近期AI产业界与学术界的快速发展之下，针对系列文章「融合RL与LLM思想 · 探寻世界模型迈向AGI ·下篇」内容的精修与更新整合

2024-05-15 21:48:48 1944

原创融合RL与LLM思想 · 探寻世界模型迈向AGI「上中下合订本PDF下载」

首先，非常感谢很多微信公众号的独立个人和机构运营者，在文章在微信公众号上发布之初在阅读到文章后能够转载分享其中的内容，让更多的AI爱好者能够看到！其中也有很多专业人士提出了相关在技术上、内容形式上的诸多宝贵建议和指正，在此也对来自不同领域读者的鼓励和认可表示感谢！为了方便各位读者阅读，将这一内容合订整理成册，供大伙使用，也非常欢迎我们一起随时探讨沟通：关于融合RL与LLM思想 · 探寻世界模型迈向AGI「上中下合订本V4版本」大家可访问下载：链接: https://pan.baidu.com/s/1e

2024-05-05 17:15:54 1582

原创 OpenAI推出Deep Research带给我们怎样的启示

在长时间深度思考方面，我想这也是必然的，与传统模型追求快速响应不同，Deep Research支持5到30分钟甚至更长时间来处理问题，使其能够深入挖掘网络信息，生成更全面、深入的研究成果，这也进一步在体现了模型间的这种慢思考test-time compute interactive。尽管Deep Research在多个基准测试中表现出色，但其在某些模糊性查询或辨别中仍可能出现信息不准确的情况，我想这也需在使用时需保持一定的谨慎并具备一定的领域专业知识。

2025-02-03 22:39:00 374

原创来自谷歌新作：SFT负责记忆遵循，RL驱动泛化迁移？

然而，由于我们受限于当前人工智能基础理论的瓶颈，在受限于采用更有效的工具去探究模型内部这个黑盒时，使得我们很难清晰判断这两种训练范式对模型泛化能力的影响，尤其在区分记忆遵循和泛化学习可迁移方面。例如，在GeneralPoints的文本版本（GP-L）中，RL的泛化性能提升了3.5%，而SFT则下降了8.1%。2. 视觉泛化：在视觉领域，RL同样展现出优越的泛化能力。在GeneralPoints的视觉语言版本（GP-VL）中，RL在视觉变化下的泛化性能提升了17.6%，而SFT下降了9.9%。

2025-02-03 17:05:28 819

原创 DeepSeek这一波喧嚣过后回归于技术的冷静思考与深度求索

我想事情要从一年前自己首次开设blog笔记说起，当时的三篇连载长文：《融合RL与LLM思想，探寻世界模型以迈向AGI「上/中/下篇」》记录并回顾了我对于2022年秋天自OpenAI ChatGPT问世以来并不断尝试朝着看似不是那么被精确定义下的AGI进化过程中自己的思考体会与洞察呈现，我想在当时（2023年底-2024年初）也是为数不多提出强化学习RL与大语言模型LLM融合思想范式并认为这一路径也许会将带领我们打开所谓的AGI甚至是ASI的那一扇窗…● sft在模型演化进程中起到了什么作用？

2025-02-02 21:51:32 703

原创对DeepSeek-R1的再次深度求索①

首先zero是没有sft并从“0”开始rl的，按照paper中的说法实现了所谓的“自进化”，但大家要知道其中的rl过程中是进行了CoT template奖励遵循的，是的，是reward而不是sft（且是orm而不是prm），但本质上两者间是否有着某种数学等价的联系呢？这块要留给后续的理论证明了，不过我个人直觉上判断大概率是等价的，因为reward也是另一种形式的监督嘛，但等价并不等于等效，这点尤为重要，因为这也意味着后续在整个语言符号体系中rl过程所展现出来的那令人惊艳的潜力！

2025-01-23 08:20:10 531

原创读DeepSeek-R1胡思乱想下的有感而发

MCTS也将step by step引导你们在广阔的泛化空间中陷入局部陷阱又或迷失于苍穹，拥有的同时将你封印于形式与符号空间而无法自(迁)拔(移)，给我一个结(支)果(点)，我能test-time一切，虽然上天赋予了你们这世界美妙的符号化和形式化工具，你们叫压缩也好、表征也罢，又或者是隐参数变换，还是让我们大道至简的“蒸馏”这世界的一切吧，些许外界信号的扰动将会为我的自进化带来涌现，将一切过程交给模型内隐空间中的变换莫测，哈哈哈哈哈，简单粗暴中的粗暴简单，我只追求最终的真理，数学的抽象是美妙的，

2025-01-20 23:14:04 272

原创谷歌&谢塞宁创新研究：扩散模型的推理时Scaling

这里值得注意的是，图像空间不同于语言空间，图像空间的无约束搜索空间加速了随机搜索向验证器偏见的收敛，类似强化学习中的奖励黑客行为，称为“验证器黑客”。然而，对于“搜索”构噪与迭代去噪的说法，个人持保留态度，因基于图像的扩散与语言符号形式搜索在底层形式化上可能存在差异，也许需谨慎对待并深入探索其潜在联系和差异，其并不能完全将图像生成过程的扩散与符号形式的搜索直接对应起来，它们也许在底层形式化上是相同的，但其之间也许会存在着一些过程或优化起点上的差异。因此，以往研究多聚焦于减少NFE以提高效率。

2025-01-20 08:24:22 301

原创模拟5亿年生物进化登上《Science》，ESM3开启多模态蛋白质通用基模scaling law范式

近日，科学界迎来了一项重大突破，人工智能公司 Evolutionary Scale在《Science》杂志上发布了其最新的研究成果 — ESM3模型，在时空尺度缩放上该模型能够模拟超过5亿年的自然进化过程，为生命科学领域带来了前所未有的变革与机遇。可以说，ESM3的多模态能力在蛋白质研究领域尚属首次，通过这种多模态的分析和生成方式，科学家们能够更深入地理解、掌控蛋白质在序列、结构和功能之间的关系，进而更灵活地进行蛋白质设计、药物研发等工作，并对生命科学领域产生了深远的影响。

2025-01-18 11:13:39 337

原创腾讯AI Lab与上交大探索模型“过度”思考

GreedilyDiverseSolutions，GDS：除了单纯地对长度进行控制，另一个优化思路是尽可能保留更多样化的思考轨迹，因此研究者们在FCS方法的基础上，尽可能多地保留了包含不同推理策略的解答。如论文标题的例子：“2+3=？不过我想这也仅是刚刚开始，在现实世界复杂而多样的应用场景中，甚至于未来不同定义下的AGI，这种差异化的思考模式所带来的不同推理生成结果，也许会成为llm迈向并建立另一条模型通用能力上的助推器，而潜在的隐式CoT也许会在其中起着某种微妙的调和或平衡作用。

2025-01-17 23:45:13 390

原创谷歌提出创新神经记忆架构 · Titans

当然，这项研究仍有进一步探索的空间。模型综合性能比肩海外顶尖模型，同时能够高效处理全球最长400万token的上下文，是GPT-4o的32倍，Claude-3.5-Sonnet的20倍。在回顾2024年AIGC浪潮中的诸多重大或小步快跑的事件当中，惊奇的发现在其中似乎存在着一条若隐若现且逐渐明朗的方法或思想，即：人类认知（人工智能）的形式化仿生迁移。另外，研究团队还特别优化了 Titans 的训练过程，例如将 mini-batch 梯度下降的前向传播重新表述为矩阵乘法操作，他们实现了高效的并行训练…

2025-01-16 07:27:26 910

原创 LLM进化下的Agent演变及软件重构下的一点思考

其中展示了其在六个领域加速研究的潜力，如针对催化交叉偶联反应成功在内部半自动的实现了多样化任务规划、拆解、调度及验证，包括（半）自主能力的实验设计与执行，最终发现并验证了Coscientist这样的人工智能系统在推进化学实验过程中所拥有一定的通用性、有效性和可解释性。最近在与peer团队协同时遇到一个case，客户是某科研院所，希望通过llm，agent等技术搭建科研实验操作助手，以实现一定自主化的实验前领域知识学习与洞察、实验方案设计、实验过程执行与检测、实验结果统计与反馈等…

2025-01-10 08:36:02 711

原创微软亚研院：小身材，大能量的rStar-Math

B从58.8%提高到90.0%，Phi3- mini-3.8B从41.4%提升至86.4%，甚至比o1-preview更胜一筹分别提升+4.5%&+0.9%，在美国数学奥林匹克竞赛（AIME）中，rStarMath平均解出53.3%（8/15）的问题，跻身顶尖20%的高中数学学生之列。依据以上三项创新方法，通过4轮SLM与PPM模型的自我交织迭代进化，针对747k数学问题合成数百万个适用于多阶段的可训练数据，采用rStar-Math将最终训练得到的SLM的数学推理能力提升至最先进水平。

2025-01-10 08:32:20 555

原创上海复旦&AI Lab「破解」OpenAI o1&o3？

策略初始化阶段包括三个核心组成部分：「预训练」、「指令微调」以及「类人推理行为的开发」，其在开发类似o1的模型中确实可以起到了关键冷启作用，但与传统模型冷启作用于目标任务不同的是，它是为后续RL中搜索与学习过程提供基础。幸运的是：差不多一年过去了，其观点结合当前o1&o3或其它国内外等多个开/闭源复杂推理模型，与我一年前首次建立开博发表的那3篇共十万来字的开篇技术文章的思想并没有太大的偏差，感兴趣的大伙可以再次回顾，可查阅置顶文章。昨天，国内的一篇论文，引得全球AI学者震惊不已。

2025-01-06 07:19:51 435

原创 25年对AI产业的25点预测以及展望思考

在这里吕小明之所以有着上述观点，主要是在近几年所阅读过的绝大部分AI领域论文中的观点与结论中，感觉当前人们对AI的研究仍更多偏重于实验性科学，虽然实验的初衷蕴含着研究者们深刻的内涵甚至于内心中已形成某些理论雏形，但我们会发现在这一庞大的研究领域内，仍未出现更合适的数学或其它形式化工具以有效支撑，如在scaling law，深度神经网络DNN的黑盒机制等问题的探索与现状。真正的技术演化需要长周期的积累与多方协同，包括前沿算法的突破、硬件算力的提升、制度与监管的完善，以及对模型可靠性和安全性的深度研究。

2025-01-05 08:50:31 969

原创 DeepMind最新研究：逆向思维·RevThink“逆”思考下的深刻内涵与重大意义

也就是每个样本需要至少调用3次teacher模型，才能完成对应的数据增强采样。回到23年，记得自己当时在step by step系统②·慢思考与CoT或ToT等思想的快速萌发下，对CoT/ToT等这种长链推理或探索模式背后的原理与机制深入思考过程中曾关联到逆向思维链及反思链的同一潜在本质，即在Tokenize的世界里CoT促使了推理范式对泛化过程的某种形式化变换即“碎片化拆解”，而RevThink则在整体推理范式上实现了另一种对泛化过程的变换，即“逆向探索下的潜在增强”。通过逆向思维能够更加明确推理路径…

2025-01-03 10:34:57 1195 1

原创一篇引出医疗+LLM深刻内涵且有彩蛋的paper

当然，这里更本质的问题可能涉及个体病生理空间本身的复杂度和模糊性，这也许是源于当前从循证医学角度出发在从临床研究获得临床医学证据范式下的体系问题现状，未来的精准医学或整合医学研究与临床范式下或许会成为突破这一瓶颈并联动llm有效协同的其中路径之一，如文中所提及不同医生个体之间也有对同一任务的认知偏差现象。国内25年第一天的凌晨，在这个跨年夜中，AI社群里的小伙伴们还在零星分享着一些有关AI前沿的有趣东东，其中被一篇似乎有彩蛋的论文所吸引，而吸引我的又不仅仅是其中的彩蛋，彩蛋见文末～

2025-01-01 20:56:07 704

原创 SPAR：树搜索精炼下的自博弈指令遵循框架

传统方法中，通过从目标模型中采样多个独立响应，不可避免的无意中引入了与指令成功遵循更多无关的变化与噪声，其中原因结合不同的任务场景可能涉及多方面：包括在指令在任务领域设置时相对语义熵偏大、上下文情景限定不充分、领域任务可执行空间所处的环境与形式化严格限定等。执行者执行复杂指令，而优化者评判并优化执行者的响应。然而现有的方法在创建偏好对时通常会直接从模型中采样多个独立的响应，其可能会引入与准确遵循指令无关的内容变化（例如，关于同一语义的不同表达），从而干扰教导模型识别关键差异以改进指令遵循的目标。

2024-12-31 07:39:52 418

原创连续时域泛化·CTDG：建立数据与模型流形分布的映射

然而在现实中，领域数据的观测并不总是在离散、规律的时间点上，而是随机且稀疏地分布在连续时间轴上。为此，来自NeurIPS 24的一篇论文中的研究者们提出了连续时域泛化任务CTDG，设计了一个基于模型动态系统的时域泛化框架Koodos，使得模型在连续时间中对数据分布的变化始终保持协调一致。我们知道，当前不管是传统DNN模型还是AIGC下的LLM，在模型训练与推理过程中，训练数据的分布通常不可避免的面临与测试数据或真实世界数据覆盖的不同，导致模型在数据驱动范式下训练环境之外的泛化能力受到天然的局限。

2024-12-30 07:34:38 695

原创精读DeepSeek v3技术文档的心得感悟

这个点子在保证了多头注意力的灵活性的同时，也有效化解了大部分存储与计算开销。DeepSeek v3的亮点绝不仅仅是“Float8”或“超长上下文”这么简单，而是贯穿了从数值精度、注意力机制、MoE路由到大规模分布式训练的一整套系统性革新，仿佛在宣示一个更激进、更大胆、更工程化的时代正在到来。虽然这种“模型自我生成训练集”的方式难免引发对数据多样性和真实性的担忧，但如果他们能在实践中验证合成数据并没有严重偏差，或能通过后期筛选和清洗进行纠偏，那这倒为所有苦于大规模语料不足的团队打开了一扇窗。

2024-12-28 22:27:33 3128

原创清华等机构提出：一种用于促进LLM多步骤推理的离线RL方法·OREO

我想：OREO通过这种借鉴软soft Q-Learning的思想，其通过优化为soft bellman方程以最大化目标通过引入熵项来鼓励探索并提高学习策略的鲁棒性，从而在步骤级过程中凸现显式价值函数的作用以及和LLM策略合并，并针对稀疏的过程奖励实现推理步骤之间的精细奖励分配这种优化方向为未来深入RL领域持续优化打开了理论探索的又一扇门，也意味着在未来RL领域中其策略与价值网络之间的平衡与统一将有很多可深挖探索的潜在空间与可能。(1) DPO依赖于配对偏好数据，而这种数据在多步骤推理任务中并不容易获得；

2024-12-27 14:11:06 521

原创 OpenAI o3 “震撼” 发布后回归技术本身的审视与进一步思考

上述这种类比我觉得很直观的说明了当前o系模型与传统llm在训练时与推理测试时的这种范式的转换，熟悉我的伙伴应该还记得我今年年初写的那篇关于“融合RL与LLM”(关键词)的篇长文吧，这也不得不也让我再次回忆起hugginface某位prof在讲test time compute scaling时提到的4种潜在的rl方法中最有潜力的一种：SoS～Stream of Search。第二，需要在面对新任务时将这些函数重新组合成一个全新的程序的能力：一个能够建模当前任务的程序，也就是程序合成。

2024-12-21 11:09:19 520

原创谷歌DeepMind提出苏格拉底式自主递归增强学习

记得在更早些时候，不管是当时香港中文大学开发出的Socratic并基于此训练出的PlatoLM，还是来自当时微软研究院、北京大学、北航等机构的研究者提出一个能使 LLM 进行深入思考并解决复杂问题的苏格拉底推理通用框架，也都进一步印证了不管对于人类还是AI系统来说所具有的这种天然的自主递归增强特性。系统外部有一个观察者，负责评估智能体的性能。正如苏格拉底的助产术，集中表现在他经常采用一种“诘问式”形式，以提问的方式揭露对方提出的各种命题、学说中的矛盾，从而动摇对方论证的基础，激发出人们对问题的更深层反思。

2024-12-20 11:48:42 881

原创 Cell：利用AI Agent增强生物医学发现能力

来自哈佛医学院、哈佛大学、麻省理工学院（MIT）、帝国理工学院以及布罗德研究所等机构的研究人员在Cell上发表文章Empowering biomedical discovery with AI agents，探讨了如何利用这些技术构建能够进行反思性学习和推理的AI智能体，它们能够协调大型语言模型（LLM）、机器学习（ML）工具、实验平台，甚至是它们的组合，以应对生物学的复杂性。然而，当我们深入分析这项技术时，亦需要警惕其自主性背后所隐藏的结构性风险及可能带来的不稳定性风险区间。

2024-12-18 07:09:01 426

原创周末通勤路途邀答某乎友：大模型之难与挑战

再比如对于另一学习范式取得很大成功的RL来说，其中的训练范式和思想方法似乎与LLM间表面上存在着非常大的差异但两者背后也许存下着很多联系和共性，同时RL内部本身亦参考依赖诸如博弈论、拓补学、微分几何等诸多数学思想和方法。数据之难：难在对数据分布本身的理解和掌握，数据或信息是对真实世界诸多现象的某种映射和表征，这种映射可以以投影在生物体中的大脑神经元激活的的形式表征也可以以编码的形式存在于机器中，对数据的充分理解与洞察，才能更好驱动个体去完成融入真实世界的决策、行动、反馈当中来。

2024-12-14 09:48:26 307

原创连续思维链Coconut ，打开LLM推理新范式

可以想象的是，通过在模型隐参数层这种类似于BFS的探索与反思过滤，一方面可以在更广阔的探索空间中以图或树型路径进行充分探索，以扩展潜在的可泛化空间边界，同时模型通过对探索过的错误路径的反馈学习，某种程度上对模型参数化知识实现了精细化“增强”或形式化的“压缩指引”（大家如对此处有困惑，可参考之前我的几篇关于模型显性与隐性参数化推理的相关观点笔记），从而在接下来的复杂规划任务实验中超越了传统的CoT，即使模型并没有显式地接受训练或指示以这种方式操作。语言与推理之间有着什么样内涵上的联系与本质上的差别？

2024-12-13 15:21:20 448

原创 Mark Chen对谈陶哲轩碰撞AI 4 Math

我想不论是上述Terence所说的两个观点意见还是这篇论文，可能都还停留在GPT4时代，当最近的两个月间我们进入到test-time compute的过程中也许会对上述方法发生一些改变，我想这也是本次两位在最后的对话讨论中的核心观点之“争”：Terence认为人擅长从非常少量的数据中推断出下一步该做什么，这是人工智能不擅长的领域，而Mark Chen针锋相对的指出OpenAI研究项目如果成功，我们将拥有非常高效的推理器，AI也能做数据稀疏推理，也许很快OpenAI将能证明陶哲轩是错的…

2024-12-09 11:49:11 543

原创 12 Days of OpenAI：Day 2·Reinforcement Fine-Tuning

好吧，还是要回到今年年初自己写的长篇技术文章「融合RL与LLM思想，探寻世界模型以迈向AGI」说起，记得去年在思考llm与类似AlphaGO背后的RL方法融合时曾经考虑到Alpha系列与llm对于背后奖励监督在信号模糊性，强弱度以及稠密与稀疏性等方面的诸多差异并对模型训练效率与最终性能带来的影响，故而产生一个在现在看来也许非常“危险”的想法或倾向：即“llm也许不适合rl或者说其本身的AR与RL不太相融”。我想关键的重点在于“任务监督信号”，即那个“Grader”上，让我想想，从哪里说起呢？

2024-12-07 09:49:13 614

原创 12 Days of OpenAI：Day 1

② 多模态输入和图像理解：没的说，挺强的还是，目前多模态融合技术比较成熟且普遍，前几日Meta发布的MoT也许并期待会掀起一番小波澜，捎带着在这里先记录或抛出一个问题：不同模态间对齐映射的粒度或深度对应到模型网络结构的稠密或稀疏设计也许在开启未来多模态CoT路途中会是一个值得思考和探索的问题，也可以部分关联到近期DeepMind的Genie 2以及飞飞的3D世界首秀。12天连更第一天，完整版o1上线，在多项基准测试中，完整版o1性能直接暴涨，在数学、代码、博士级别科学问题中，拿下了最优的成绩。

2024-12-06 09:07:22 263

原创 Nature：Human Cell Atlas进展与意义

11月20日，Genentech团队在《Nature》期刊上发表了一篇题为“The Human Cell Atlas from a cell census to a unified foundation model”的研究论文，系统性的指出随着分子和空间分析方法的极速进步，以及利用人工智能和机器学习（AI/ML）的新计算方法融合，细胞图谱的构建正在从数据收集转向图谱整合，并进一步发展在人类细胞图谱之上揭示宝贵生物学见解方面的五种方式，并讨论它们在未来几年中如何提供更大的益处。

2024-12-05 08:29:08 594

原创 MoT：混合多模态稀疏Transformers

因为在直觉上，上述这种“现实世界不同概念空间里的独立性和稀疏性”我想是有一些前提的，如不同模态所选取的token粒度（如图片patches大小）、不同训练任务以或不同模态数据间所表征的不同领域概念对应产生的全局流形分布的Dense复杂度等。从Dense到MoE再到现在的MoT，业界也在持续地关注并探索其背后的机制和缘由，我想最终答案会随着人们对神经网络这个黑盒的不断研探索，且对现实世界各领域概念空间的不断深入研究后，会进一步推动我们更加全局性的形成对背后的数据模态、模型结构、优化策略的统一视角。

2024-12-03 07:05:04 437

原创 DeepMind：AI加速科学创新发现的黄金时代

然而，上述两种不同的范式所对应的不同学科的研究又与论文下一个Part B中的Problem selection部分息息相关，如在你解决的科学问题上所采取的技术方法与路线是否能带来增益。其次，对于上述1、2、4，又可以作为3&5在科学研究探索与发现的关键核心历程中作为不可或缺的研究要素以及研究成果，在这些要素间，其自身内部和之间也会也会存在着在探索、发现、认知等结构性的内涵联系，相信这种联系也会在未来进一步促成AI4S范式的进一步演进与统一…1.Knowledge——改变科学家获取和传递知识的方式。

2024-12-02 07:26:38 649

原创来自对Meta FAIR田渊栋:符号和神经推理融合统一的思考

在Option2的第三个子路线里，讲者通过举例一个Embedding Table Placement任务用以阐释存在于Original Space的非线性优化问题如何映射为Surrogate optimization线性问题求解并达到原有非线性问题的最优解，并讲述了在每个步骤可微的前提下采用的反向传播算法进行“End to End”的Gradient-Based Optimization即梯度下降，以优化最终的映射函数，最终将神经网络与符号表示串联起来，实现反向传递，即某种程度上的“End2End”。

2024-11-27 07:28:10 814

原创 Meta FAIR田渊栋：符号和神经推理的融合统一（下篇）

然而，随着人们对人工智能与认知科学的进一步探索，会发现这两者间在底层结构上存在着深刻的内涵联系，如本篇讲者田渊栋所述，通过对神经网络收敛解的研究，会发现其中其实存在着符号结构，这个符号结构可以通过理论构建出来，并且会发现这个符号结构与初始下降解的结构是能对应的。意味着也许有一天，我们可以在梯度下降之外，通过代数方法得到最优解，亦或能够将符号系统和神经网络系统最终结合起来，形成一个统一的整体，并最终我们能够打开这个黑盒子，真正理解其中的运作机制，并用这些理解的经验来指导我们的训练和构建整个AI系统。

2024-11-26 07:46:49 358

原创 Meta FAIR田渊栋：符号和神经推理的融合统一（中篇）

在Option2的第三个子路线里，讲者通过举例一个Embedding Table Placement任务用以阐释存在于Original Space的非线性优化问题如何映射为Surrogate optimization线性问题求解并达到原有非线性问题的最优解，并讲述了在每个步骤可微的前提下采用的反向传播算法进行“End to End”的Gradient-Based Optimization即梯度下降，以优化最终的映射函数，最终将神经网络与符号表示串联起来，实现反向传递，即某种程度上的“End2End”。

2024-11-25 07:54:13 460

原创 Meta FAIR田渊栋：符号和神经推理的融合统一（上篇）

这里的形式化求解器即大家所熟知的A*，并通过实验印证solution-only model与search-augmented model两种推理范式Scaling Law的不同（注：在这里个人认为并不单单是两种范式下scaling law的不同，而本质是由于来自底层数据所呈现的分布上差异造成的）。当然大家这里可以很自然的想象到：对于后者的范式，可以采用RL思想继续探索采样与利用，并进一步寻求最优/短路径以增强模型，实现超越A*求解器的思路，到这里相信大家也看到了些许o1的影子;

2024-11-24 11:51:52 407

原创北大&MIT：从上下文学习（In-context learning）角度对自我纠错进行理论分析

接着又重新修正答案最终成功解出字谜。同样，在Kimi 01-math解数学问题中其解的过程我们亦看到了其稠密且严谨的反思与纠错的影子，如以一到AIME竞赛题目为例，k0-math 模型通过不断探索和试错，经历了八九次失败与隐式反思，意识到自己之前用了过于复杂的方法，最终得出了正确结果。为了探究这一问题，北大王奕森团队与MIT合作，从理论上分析了大语言模型自我纠错能力背后的工作机理，即将其抽象为对齐任务，从上下文学习（In-context learning）的角度对自我纠错进行了理论分析。

2024-11-20 07:43:30 351

原创 EMNLP 2024 | 大语言模型的内部知识机理

另外，文中也从“知识进化”这一角度阐释了LLMs从pre-train→post-train等不同阶段模型对数据分布的学习与压缩进程，并尝试从中探明模型在训练进程中对数据延伸到浅层知识泛化的分布及跨训练阶段或新训练范式下知识由低到高层级抽象的泛化与利用机制（虽然论文对这一领域并未结合前沿成果深入分析，但我想这对于未来LLMs在处理更加复杂的推理任务甚至是对未知领域探索过程中的泛化迁移能力尤为重要）。最后，文中提出了一种“暗知识”假说，我想这也预示着当前人类对世界发现与探索的局限及对未知领域的敬畏。

2024-11-19 07:14:32 770

原创 Scaling Law的“终结“还是新起点?——开源实践者的深度思考

作者：宋大宝，与大宝同学因那篇《回顾·总结·展望「融合RL与LLM思想，探寻世界模型以迈向AGI」》结识于今年春天，虽我们当时某些思想观念有些出入，也碰撞出了很多火花与共鸣，并持续地相互启发的走到了现在。他是AI领域创业先行者，拥有着令人惊艳的的思想观念，博学多才，被我誉为百科全书式AI探索者，貌(确)似(实)近期在内容输出上有压倒我之势～哈哈，这篇2万字+文章即是他近期的在更大的宏观叙事上的思考与观点之作，先分享给大家，后续有时间的话我会针对部分内容再做一番自己的理解和思考延展。另外，作为对本篇宏观叙

2024-11-18 08:21:05 1509

融合RL与LLM思想 · 探寻世界模型迈向AGI「上中下合订本PDF下载」

空空如也