【AI学习】《潜望》对杨植麟的访谈要点

文章讲述了大模型创业者的经验分享,强调了在AI创业中寻找非共识、第一性原理的重要性,涉及LLM的发展、长文本的本质、AGI的组织需求以及技术安全问题。
摘要由CSDN通过智能技术生成

读过腾讯新闻《潜望》对杨植麟的访谈,复盘大模型创业这一年的历程,提到了创业的过程和关键点、对AI的行业判断和技术分析,信息量巨大。所以,重读了一遍,并做笔记。

文中的两个概念
“有概率的非共识”,或者是“成立的非共识”:“如果所有人都觉得你正常,你的理想是大家都能想到的,它对人类的理想总量没有增量。”。这也很好理解,如果大家都能看见的机会,那就不是机会了,反之,如果没有成立的可能性,那也没有意义。

访谈提到的案例,就是OpenAI。“2017年-2018年,OpenAI风评很差,我们圈子的人找工作,一般考虑像Google。很多人跟Ilya Sutskever(OpenAI首席科学家)聊完,觉得这个人疯了,太自以为是了——OpenAI不是疯子就是骗子。但他们从很早开始投入,找到非共识,找到AI现在唯一work的第一性原理:通过next token prediction去scale(通过对下一个标记的预测来进行规模化)。”

做事,就是要寻找这种“有概率的非共识”的事情,当然,非常困难。

“场景摩尔定律”:随着AI在AGI道路上的继续发展,大模型基础能力的提升,后续场景数量会随着时间指数级上升。

雕花和第一性
可能很多人读过访谈,印象最深的就是访谈中提到的“无限雕花”,因为我们就是天天的无尽雕花……

杨植麟首先谈到的在谷歌的学习经验:

“我学习到最多是在Google,实习了很长时间。2018年底开始做基于Transformer的语言模型,最大learning是从无限雕花中把自己释放出来,这很关键。……loss怎么降得更低,怎么提升准确率,你会陷入无限雕花。有人发明很多诡异的architecture(架构),这些是雕花技巧。雕花之后可能在这种数据集上变好,但没看到问题本质。

本质在于,要去分析这个领域缺少的是什么?第一性原理是什么?

这是我在Google学到的思维:如果能被更底层的东西解释,就不应该在上层过度雕花。有一句重要的话我很认同:如果你能用scale解决的问题,就不要用新的算法解决。新算法最大价值是让它怎么更好的scale。当你把自己从雕花的事中释放出来,可以看到更多。”

还有关于Kimi chat的产品思路:

“我们做long context(长上下文),需要对未来有判断,你要知道什么是根本的、接下来的方向。还是第一性原理,‘去雕花的过程’。如果你专注雕花,只能看OpenAI已经做了什么,我看怎么把它已经做的做出来。

你会发现在Kimi(AI智能助手)里做长文本无损压缩,产品体验独特。读英语文献,它能很好帮你理解。你今天用Claude或GPT-4,不一定做得好,需要提前布局。我们做了半年多。相比我今天看到一个long context风口,赶紧召集两个团队,用最快速度开发,有很大区别。”

其实大家都不想雕花,只不过,什么是第一性、如何做第一性?认识事物的本质,是一种能力。当然,也是一种态度,还是应该有要求,多做更基础性的工作。

关于技术:
LLM的第一性:NTP(next token prediction)+ scaling law

scaling law,简单说,就是模型越大,训练数据越多,效果越好。

关于长文本,为什么长文本是一个本质问题:

“它很本质。它是新的计算机内存。

老的计算机内存,在过去几十年涨了好几个数量级,一样的事会发生在新的计算机上。它能解决很多现在的问题。比如,现在多模态架构还需要tokenizer(标记器),但当你有一个无损压缩的long context就不需要了,可以把原始的放进去。进一步讲,它是把新计算范式变成更通用的基础。

旧的计算机可以0、1表示所有,所有东西可被数字化。但今天新计算机还不行,context不够多,没那么通用。要变成通用的世界模型,是需要long context的。

第二,能够做到个性化。AI最核心的价值是个性化互动,价值落脚点还是个性化,AGI会比上一代推荐引擎更加个性化。

但个性化过程不是通过微调实现,而是它能支持很长的context(上下文)。你跟机器所有的历史都是context,这个context定义了个性化过程,而且无法被复刻,它会是更直接的对话,对话产生信息。”

“另一方面是,你不能只提升窗口,不能只看数字,今天是几百万还是多少亿的窗口没有意义。你要看它在这个窗口下能实现的推理能力、the faithfulness的能力(对原始信息的忠实度)、the instruction following的能力(遵循指令的能力)——不应该只追求单一指标,而是结合指标和能力。如果这两个维度持续提升,能做非常多事。可能可以follow(执行)一个几万字的instruction(指令),instruction本身会定义很多agent(智能体),高度个性化。”

对行业的判断
AGI需要新的组织架构:“它不是纯科学,它是科学、工程和商业的结合。它得是一个商业化组织,是公司、不是研究院。但这个公司是从零到一建造的,因为AGI需要新的组织方式”。“旧文化里产生新组织,难度很大”。

关于刷榜:“刷榜意义很小了。最好的榜就是用户,应该让用户投票。很多榜存在问题。”

对于AGI:“真正AGI肯定是全球化的,不存在由于市场保护机制导致你只能做某个regional market(区域市场)的AGI公司,长期不存在——全球化、AGI和你有一个很大用户量的产品,这三个东西最终是必要条件。”

新的维度:综合能力很重要,大模型的基础能力需要持续追赶提升,但是需要升维,当然新的维度不能脱离综合能力。新的维度有Long context,图片生成。

关于价值:“比传统搜索引擎好个10%、20%,没什么太大价值——只有一个颠覆性的东西,才配得上AGI这三个字。独特价值是你增量的智能。要抓住这个点,智能永远是最核心的增量价值。如果你这个产品最核心价值只有10%-20%来自于AI,就不成立。”

关于应用:“Midjourney为什么效果好?它在用户端做了scaling——user scaling和model scaling需要同时做。反过来,你如果只关注应用,不关注模型能力迭代,不关注AGI,贡献也有限。”“假设你今天找到一个场景,用现在的技术能力,且从0到1增量价值巨大,从1到n空间又没那么大,这种场景OK。Midjourney就是,或者做文案生成,相对简单一点的任务,从0到1效果又很明显。这种是只关注应用的机会。但是,最大机会不在这。你的目的假设是商业化,你不可能脱离AGI去思考。我现在只做应用,那好,可能过一年你就被碾压了。”

后续两个大的milestone(里程碑):“一是真正的统一的世界模型,就是它能统一各种不同模态,一个真正的scalable和general的architecture(可扩展、通用的系统结构)。二是能在没有人类数据输入的情况下,使AI持续进化。”“剩下很多问题,都是这两个因素推导出来的。今天谈到reasoning(推理)、agent(智能体),都是这两个问题解决后的产物。要再做一些雕花,但没有fundamental的blocker(根本性阻碍因素)。”

关于开源:“开源的贡献可能很多都没有经过算力验证。闭源会有人才聚集和资本聚集,最后一定是闭源更好,是一个consolidation(对市场的整合)。如果我今天有一个领先的模型,开源出来,大概率不合理。反而是落后者可能会这么做,或者开源小模型,搅局嘛,反正不开源也没价值。”

关于Sora:“Generative AI(生成式AI)做到这个效果,在意料之内,意外的是时间——比之前预估更早。这也反映了现在AI的发展很快,很多scaling的红利没有被完全吃下来。”“它本身是对世界建模,有了这个知识,对现有文本是非常好的补充。在这个基础上,不管在agent还是和物理世界的连接方面,有蛮多空间和机会。”

Sora的问题:“剩下的是它也没有完全解决,比如需要一个统一的architecture(架构)。DiT这个architecture仍然不是非常通用。在单纯对视觉信号的marginal probability(边际概率)去建模,它可以做得非常好,但怎么泛化成一个通用的新计算机?还是需要更unified architecture(统一的架构),这个东西还是有空间。”“通过对视频的边际概率去建模,本质是在做无损压缩,跟语言模型next token predictions没有本质区别。只要你压缩得足够好,就可以把这个世界可以被解释的东西去进行解释。但同时也有重要的还没做的事:它怎么跟已有的已经被压缩的能力结合起来?”“可以理解成有两种不同压缩。一种是压缩原始世界,这是视频模型在做的。另一种是压缩人类产生的行为,因为人类产生的行为经过了人的大脑,这是世界上唯一能产生智能的东西。你可以认为视频模型在做第一种,文本模型在做第二种,当然视频模型也一定程度包含了第二种,一些人创造出来的视频包含了创作者的智能。它最终可能会是mix,需要通过这两种方式从不同角度学习,但最终对智能的增长都有帮助。”“生成可能不是目的,它只是压缩这个函数。如果你压缩足够好,最后生成的效果就会很好。反过来,如果你这个模型本身没办法生成,是不是也存在可能把它压缩得非常好?这点存疑。有可能生成非常好,是压缩非常好的一个必要条件。”

Sora + GPT:“Sora马上可以用到视频生产过程中,但如果跟语言模型结合,就有可能打通数字世界和物理世界。另外,你也可以去更加端到端完成任务,因为现在你对这个世界的建模比之前更好,它甚至能用来提升你对多模态输入的理解能力。所以你最后能在不同模态之间做比较多切换。总结下来,你对世界的理解更好了,你可以在数字世界里做更加端到端的任务,甚至去架起一座桥梁,连接物理世界,完成一些物理世界里的任务。这是起点。比方说,自动驾驶,或者一些家务,理论上都是打通物理世界的一个概念。所以数字世界的突破是确定的了,但它也还是潜在有通往物理的可能。”

关于LLM的安全问题:“Safety反而表明了,他对接下来技术能力的提升有极大信心。他们是相反的”。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值