自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 回顾·总结·展望「融合RL与LLM思想,探寻世界模型以迈向AGI」

不管是回顾以往,总结当下,又或者是展望未来,决定针对「融合RL与LLM思想,探寻世界模型以迈向AGI」这篇达10万字小作文做一下MARK..一方面是在继上一次终稿发布时所经历的1个多月时间结合新事件和作者理解进行一次内容上的再版更新并同步给读者;一方面是因整篇文章比较冗长,且作者平常更多是利用工作之余的碎片时间在尽量保证内容质量下随思而写,内容表述逻辑性和完整性可能会有一些错误,因此再整体总结并阐明一下写作本篇系列文章的初衷、目的和核心概要内容;一方面也是希望能够承上启下,参照依据本篇文章对底层算法技术与之

2024-05-23 07:06:55 1236

原创 通往AGI 的「System2·慢思考·快实践」

本次内容为结合近期AI产业界与学术界的快速发展之下,针对系列文章「融合RL与LLM思想 · 探寻世界模型迈向AGI ·下篇」内容的精修与更新整合

2024-05-15 21:48:48 1383

原创 融合RL与LLM思想 · 探寻世界模型迈向AGI「上中下合订本PDF下载」

首先,非常感谢很多微信公众号的独立个人和机构运营者,在文章在微信公众号上发布之初在阅读到文章后能够转载分享其中的内容,让更多的AI爱好者能够看到!其中也有很多专业人士提出了相关在技术上、内容形式上的诸多宝贵建议和指正,在此也对来自不同领域读者的鼓励和认可表示感谢!为了方便各位读者阅读,将这一内容合订整理成册,供大伙使用,也非常欢迎我们一起随时探讨沟通:关于 融合RL与LLM思想 · 探寻世界模型迈向AGI「上中下合订本V4版本」大家可访问下载: 链接: https://pan.baidu.com/s/1e

2024-05-05 17:15:54 1275

原创 Q*下的Q-Learning+A*是全部吗?

我们知道,大家普遍的共识Q*即是Q-Learning+A*亦或是表示贝尔曼学习最优的解的形式,而其核心即是这个最优解。拿棋局对弈或游戏模拟操控来说,智能体将根据当前对弈/模拟状态(s)与该状态下所采取的行动(a)计算价值函数Q(s,a),即Q(s,a)表示在当前状态下采取行动a所能获得的期望奖励值,在训练过程中,智能体通常会综合考虑EE dilemma以平衡探索与利用,通过观察每个状态下采取不同行动所获得的未来期望奖励来更新Q值,并以此不断优化Q函数并不断重复强化这一过程,使其逐渐收敛到最优值。

2024-07-17 19:19:43 477

原创 【对抗性攻击下的AI认知流形裂缝

记得在今年3月份我写的长篇撰文「融合RL与LLM思想,探寻世界模型以迈向AGI」中篇中曾对真实物理世界与认知空间中复杂的数据表征下流形分布现象、RL与pre-training融合下复杂空间探索的高效采样以及再到模型针对上述复杂挑战下进行的多层级泛化学习等方面进行过一定的阐释和理解,感兴趣的大伙可翻回到那篇再去体会下,希望能进一步带给大家不一样的理解,原文pathway:因限流等原因,大家可访问置顶🔝文章探索哈。研究中预示着在围棋这一看似明确且封闭领域下AIs在鲁棒性或者对世界的泛化上仍存下很大的gap。

2024-07-16 16:22:12 265

原创 GraphRAG→必然桥梁or过渡折中?

不管面对的是开放Gen任务还是领域Gen任务,对于LLM之下所采用的各种泛RAG增强技术来说,其本质貌似亦可以看作是LLM生成推理过程在某种指引下的step by step结构性符号化扩散提示或约束(对于领域任务更多体现为约束)。如无论是GraphRAG中分步骤的图谱化实体要素提取或实体社区摘要生成的索引过程,还是大多数泛RAG中检索增强机制的中间索引构建过程,均可以看作某种具象化结构性提示,甚至可以看成为某种复杂推理模式进行的预符号化提示建模。还是未来AGI深度推理的过程性折中呢?

2024-07-16 09:08:55 322

原创 关于斯坦福TTT,大家难道没啥可唠的嘛~?

感兴趣的大伙也可以参考我之前的那篇系列文章其中一篇子篇的笔记原文:系列② · ICL与SFT的羁绊"“LLM在任务训练以及推理的模式是基于tokenize的,虽然可能两者的语义空间离散度是一样的,但对于模型的输入与输出侧的这种模式的不同,可能会衍生出ICL和SFT对于我们来讲的两种底层的数学变换模式;(1)数学变换上的等价→在纯数学维度上,一种是所谓的scale out,一种是scale up,一种是上下文作为变量的变换,一种是参数作为变量的变换,最终都是对数据分布的一种底层数学变换模式;

2024-07-12 08:46:39 154

原创 一年前 LLM & AGI 碎片化思考与回顾系列⑧ · 穿越SystemⅡ未知之境

基于上一篇“在未知之境中徘徊”,对一些有关system2的本质问题继续通过慢思考的模式来尝试进行思维扩散,并尝试在其中过滤并把握住一些本质洞察。而对复杂的长链推理本身而言,对于我们当下的探索来说仍有许多未解之谜。

2024-06-29 09:38:04 1170

原创 一年前 LLM & AGI 碎片化思考与回顾系列⑦ · 在SystemⅡ未知之境之中徘徊

基于上一篇“探索复杂推理的未知之境”,本篇笔记将在system2的未知之境中继续徘徊、探索,并对一些本质问题继续通过慢思考的模式来尝试进行思维上的扩散与延展,并期待在其中过滤并把握住一些本质洞察..

2024-06-23 08:42:00 883

原创 一年前 LLM & AGI 碎片化思考与回顾系列⑤ · 探索SystemⅡ复杂推理的未知之境

回到一年前,基于上一篇“慢思考下的暴力美学”仍然存在于心中的一些疑惑并尝试窥见触发到的一些碎片化灵感,本篇笔记将顺着system1与system2的一些本质问题继续通过慢思考的探索模式来尝试进行从上一期思维的扩散到归纳,并期待在其中过滤并把握住一些本质上的洞察..

2024-06-19 19:58:31 994

原创 一年前 LLM & AGI 碎片化思考与回顾系列④ · System2慢思考下的暴力美学

最近结合本职工作在尝试思考大模型在医疗场景的大规模alignment方面时,以及医疗领域的post-training的传统知识增强模式,直觉上似乎洞察到了一些不同以往的精细化知识增强的简单粗暴式知识增强范式的转变...这两种范式在转变过程中似乎在训练任务的构造,知识或模式的范围,目标反馈的形式上看似表面上有着很大不同,但其本质上也许是等同的。站在今天的视角来看,感觉一年前关于system2·慢思考的探索与思考历程进入了深海区的探索历程中,在这一历程中,每天都会有一些新的“观点”与“尝试”。

2024-06-15 21:50:13 931

原创 一年前 LLM & AGI 碎片化思考与回顾系列④ · 从System2→Post-training的疑虑和思考

今天回顾与反思的内容是一年前的今天体会到LLM对未来AGI的潜力与疑惑,结合人类思考模式与GPT再到System2→post-training的思考

2024-06-15 08:46:48 740

原创 一年前 LLM & AGI 碎片化思考与回顾系列③ · 初探systemⅡ之慢思考

​本篇系列内容的是建立于自己过去一年在以LLM为代表的AIGC快速发展浪潮中结合学术界与产业界创新与进展的一些碎片化思考并记录最终沉淀完成,在内容上,与不久前刚刚完稿的那篇10万字文章「融合RL与LLM思想,探寻世界模型以迈向AGI」间有着非常紧密的联系..

2024-06-11 10:25:19 830

原创 一年前 LLM & AGI 碎片化思考与回顾系列② · ICL与SFT的羁绊

接上一篇20230221·「Little Prompt,Big Power」回忆录中的内容,其中有提到关于基于「In-Context Learning-ICL的prompt工程」与「基于模型SFT」两者之间隐约有着某种结果上的等效性或在底层概念逻辑上存在某种抽象形式的等价,因此,依稀记得那一天清晨散步时的进一步梳理和思考,在对于两者之间在底层概念逻辑上存在着更深层次等价性的猜想与假设,有着更进一步的理解,如下是本次记录相关内容,结合20230221·「Little Prompt,Big Power」的思考进

2024-06-04 11:55:16 590

原创 一年前 LLM & AGI 碎片化思考与回顾系列① · Little Prompt,Big Power

除了模型其强大的内容生成能力给大众带来的持续冲击与一次又一次的惊喜之外,更多长期在这一领域从事研究或工作的人们也在逐渐接受和改变着之前自己无论从事于AI算法领域,亦或是AI工程化、AI产品设计的诸多工作内容与形式,其中有一项对于LLM来说非常特殊的关联技能,不管是对于模型在训练与推理阶段的算法建模创新来说,还是模型在推理与应用重构方面均变得尤为重要,即「prompt」..

2024-06-04 11:52:47 783

原创 Q star?

“大家应该还记得去年 11 月底爆出来的 Q* 项目吧?这是传说中 OpenAI 正在秘密开展、或将带来颠覆性变革的 AI 项目。

2024-05-19 21:15:45 1289

原创 “KAN“ AI 4 Science?

如今,在模型算法中的底层数学基础层面上,KAN似乎寻找到了另一种更适合于处理数学和物理计算领域问题的数学变换拟合过程或非线性回归逼近过程,而这种“适合”是否是某种必然,与论文中所说的这些可能是非光滑甚至是分形的1D 函数在解决数学或物理问题过程中所面临的大多数科学和日常生活中的的函数所对应的光滑性,及稀疏的组合结构的普遍性在其背后有着什么隐秘的联系?

2024-05-13 07:02:10 984

原创 为什么这次AlphaFold3再次意义非凡?

本篇讲只围绕研究核心内容进行一些技术与应用价值的提炼和总结,并给出作者对于未来不管是"AI 4 LS(Life Sciences)","AI 4 DD(Drug Development)","AI 4 Bio(Biomedical)" 还是 "AI 4 Maths","AI 4 Physics","AI 4 Chemistry" 再到最终统一的AI4S范式的进一步大胆的技术路径的思考与延伸。

2024-05-10 16:44:08 872

原创 一些灵感和想法的记录 「20240509 早」

也许在通过与RL思想与机制充分且完备的融合下,能够为复杂模式即抽象概念(未被人类所发现的复杂科学问题)探索提供某种丰厚的tokenize元结构,在这一进程中,也许正是由于这种多样化、开放性、灵活而具备弹性且可向量化的多结构或分布语义表征形式,为复杂的科学规律、抽象的数学概念、恢宏而完备的理论统一,微观而深邃的作用机理..提供可行的认知流形探寻路径。结合近期自己对“群论”思想内涵的温故的,未来是否可以针对这种AI4S范式背后所隐藏的抽象数学结构定义为特定的“群”来进行深入的探索和研究呢?

2024-05-09 09:42:40 482

原创 LLM下的「幻觉」vs「泛化」

作者在本文通过之前在Hacker News上关于大语言模型(LLM)「幻觉」问题论文的讨论,延伸思考到LLM上的另一个特性「泛化」问题,并冥冥之中感到两者之间似乎存在着某种有趣的联系...

2024-05-06 18:55:35 778 1

原创 「下篇」 融合RL与LLM思想,探寻世界模型以迈向AGI

1. 探究以泛GPT为代表的预训练自回归编码模型(即LLM)与泛Alpha系列为代表的RL的本质普遍性及表象差异性,以及为什么要将其两者联系起来?2. 鉴于LLM与RL两者间的差异化能力考量,业内不少的思路尝试将两种方法结合在一起,但结合后要么看着不是很巧妙,要不就是看起来很僵硬,总感觉像是一个过渡性的结合,并且看起来并没有以终为始,也不是原生的思想与方法的融合,因此想要尝试探寻一下两种学习方法是否能更巧妙的相互结合与统一。3. 探究思维系统的两种推理模式:系统Ⅰ(快系统)和系统Ⅱ(慢系统)在推理过程的

2024-05-05 10:21:14 722

原创 「中篇」 融合RL与LLM思想,探寻世界模型以迈向AGI

本篇文章拟分为「上篇」「中篇」「下篇」,因为文章内容整体比较冗长,也许会给大家造成一定的阅读困扰,但仍希望大家能够阅读下去,内容上尽量采用简单通俗的表述,其中文章囊括了诸如强化学习「RL」、自回归「AR」大语言模型「 LLMs」等技术领域深刻内涵思考,穿插关联了丰富的计算机科学/数学/物理学/哲学/心理学等领域跨学科内容,回顾了人工智能近现代发展历史,并在部分章节中以作者视角回顾总结过去一年中大模型给自己带来的思想冲击...

2024-05-05 10:02:35 1005

原创 「上篇」 融合RL与LLM思想,探寻世界模型以迈向AGI

篇文章于2023年底尝试挖掘并探寻以ChatGPT为代表的LLMs和以AlphaGO/AlphaZero及当下AlphaDev为代表的Alpha系列之间的AR和RL思想的背后底层理论及形式上的统一,同时尝试基于去年OpenAI暴露出的project Q*可能的关于推理过程学习再到系统①(快)思考与系统②(慢)思考的形式化统一的延展性思考,以展望当下面向未来AGI路径可行性...正如前几日AI一姐李飞飞教授所说,人工智能即将迎来它的「牛顿时刻」...

2024-05-05 09:49:44 855 1

融合RL与LLM思想 · 探寻世界模型迈向AGI「上中下合订本PDF下载」

为了方便各位读者阅读,将这一内容合订整理成册,供大伙使用,也非常欢迎我们一起随时探讨沟通: 关于 融合RL与LLM思想 · 探寻世界模型迈向AGI「上中下合订本V4版本」大家可访问下载: 链接: https://pan.baidu.com/s/1evSX258tJ9wvA0GAULj8Fw?pwd=lm51 提取码: lm51 也可扫码直接下载:

2024-05-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除