【AI学习】《潜望》对杨植麟的访谈要点

最新推荐文章于 2024-09-14 16:43:45 发布

bylander

最新推荐文章于 2024-09-14 16:43:45 发布

阅读量494

点赞数 16

分类专栏： AI学习文章标签：人工智能学习 chatgpt transformer

本文链接：https://blog.csdn.net/bylander/article/details/137890477

版权

AI学习专栏收录该内容

41 篇文章 0 订阅

订阅专栏

文章讲述了大模型创业者的经验分享，强调了在AI创业中寻找非共识、第一性原理的重要性，涉及LLM的发展、长文本的本质、AGI的组织需求以及技术安全问题。

摘要由CSDN通过智能技术生成

读过腾讯新闻《潜望》对杨植麟的访谈，复盘大模型创业这一年的历程，提到了创业的过程和关键点、对AI的行业判断和技术分析，信息量巨大。所以，重读了一遍，并做笔记。

文中的两个概念
“有概率的非共识”，或者是“成立的非共识”：“如果所有人都觉得你正常，你的理想是大家都能想到的，它对人类的理想总量没有增量。”。这也很好理解，如果大家都能看见的机会，那就不是机会了，反之，如果没有成立的可能性，那也没有意义。

访谈提到的案例，就是OpenAI。“2017年-2018年，OpenAI风评很差，我们圈子的人找工作，一般考虑像Google。很多人跟Ilya Sutskever（OpenAI首席科学家）聊完，觉得这个人疯了，太自以为是了——OpenAI不是疯子就是骗子。但他们从很早开始投入，找到非共识，找到AI现在唯一work的第一性原理：通过next token prediction去scale（通过对下一个标记的预测来进行规模化）。”

做事，就是要寻找这种“有概率的非共识”的事情，当然，非常困难。

“场景摩尔定律”：随着AI在AGI道路上的继续发展，大模型基础能力的提升，后续场景数量会随着时间指数级上升。

雕花和第一性
可能很多人读过访谈，印象最深的就是访谈中提到的“无限雕花”，因为我们就是天天的无尽雕花……

杨植麟首先谈到的在谷歌的学习经验：

“我学习到最多是在Google，实习了很长时间。2018年底开始做基于Transformer的语言模型，最大learning是从无限雕花中把自己释放出来，这很关键。……loss怎么降得更低，怎么提升准确率，你会陷入无限雕花。有人发明很多诡异的architecture（架构），这些是雕花技巧。雕花之后可能在这种数据集上变好，但没看到问题本质。

本质在于，要去分析这个领域缺少的是什么？第一性原理是什么？

这是我在Google学到的思维：如果能被更底层的东西解释，就不应该在上层过度雕花。有一句重要的话我很认同：如果你能用scale解决的问题，就不要用新的算法解决。新算法最大价值是让它怎么更好的scale。当你把自己从雕花的事中释放出来，可以看到更多。”

还有关于Kimi chat的产品思路：

“我们做long context（长上下文），需要对未来有判断，你要知道什么是根本的、接下来的方向。还是第一性原理，‘去雕花的过程’。如果你专注雕花，只能看OpenAI已经做了什么，我看怎么把它已经做的做出来。

你会发现在Kimi（AI智能助手）里做长文本无损压缩，产品体验独特。读英语文献，它能很好帮你理解。你今天用Claude或GPT-4，不一定做得好，需要提前布局。我们做了半年多。相比我今天看到一个long context风口，赶紧召集两个团队，用最快速度开发，有很大区别。”

其实大家都不想雕花，只不过，什么是第一性、如何做第一性？认识事物的本质，是一种能力。当然，也是一种态度，还是应该有要求，多做更基础性的工作。

关于技术：
LLM的第一性：NTP（next token prediction）+ scaling law

scaling law，简单说，就是模型越大，训练数据越多，效果越好。

关于长文本，为什么长文本是一个本质问题：

“它很本质。它是新的计算机内存。

老的计算机内存，在过去几十年涨了好几个数量级，一样的事会发生在新的计算机上。它能解决很多现在的问题。比如，现在多模态架构还需要tokenizer（标记器），但当你有一个无损压缩的long context就不需要了，可以把原始的放进去。进一步讲，它是把新计算范式变成更通用的基础。

旧的计算机可以0、1表示所有，所有东西可被数字化。但今天新计算机还不行，context不够多，没那么通用。要变成通用的世界模型，是需要long context的。

第二，能够做到个性化。AI最核心的价值是个性化互动，价值落脚点还是个性化，AGI会比上一代推荐引擎更加个性化。

但个性化过程不是通过微调实现，而是它能支持很长的context（上下文）。你跟机器所有的历史都是context，这个context定义了个性化过程，而且无法被复刻，它会是更直接的对话，对话产生信息。”

“另一方面是，你不能只提升窗口，不能只看数字，今天是几百万还是多少亿的窗口没有意义。你要看它在这个窗口下能实现的推理能力、the faithfulness的能力（对原始信息的忠实度）、the instruction following的能力（遵循指令的能力）——不应该只追求单一指标，而是结合指标和能力。如果这两个维度持续提升，能做非常多事。可能可以follow（执行）一个几万字的instruction（指令），instruction本身会定义很多agent（智能体），高度个性化。”

对行业的判断：
AGI需要新的组织架构：“它不是纯科学，它是科学、工程和商业的结合。它得是一个商业化组织，是公司、不是研究院。但这个公司是从零到一建造的，因为AGI需要新的组织方式”。“旧文化里产生新组织，难度很大”。

关于刷榜：“刷榜意义很小了。最好的榜就是用户，应该让用户投票。很多榜存在问题。”

对于AGI：“真正AGI肯定是全球化的，不存在由于市场保护机制导致你只能做某个regional market（区域市场）的AGI公司，长期不存在——全球化、AGI和你有一个很大用户量的产品，这三个东西最终是必要条件。”

新的维度：综合能力很重要，大模型的基础能力需要持续追赶提升，但是需要升维，当然新的维度不能脱离综合能力。新的维度有Long context，图片生成。

关于价值：“比传统搜索引擎好个10%、20%，没什么太大价值——只有一个颠覆性的东西，才配得上AGI这三个字。独特价值是你增量的智能。要抓住这个点，智能永远是最核心的增量价值。如果你这个产品最核心价值只有10%-20%来自于AI，就不成立。”

关于应用：“Midjourney为什么效果好？它在用户端做了scaling——user scaling和model scaling需要同时做。反过来，你如果只关注应用，不关注模型能力迭代，不关注AGI，贡献也有限。”“假设你今天找到一个场景，用现在的技术能力，且从0到1增量价值巨大，从1到n空间又没那么大，这种场景OK。Midjourney就是，或者做文案生成，相对简单一点的任务，从0到1效果又很明显。这种是只关注应用的机会。但是，最大机会不在这。你的目的假设是商业化，你不可能脱离AGI去思考。我现在只做应用，那好，可能过一年你就被碾压了。”

后续两个大的milestone（里程碑）：“一是真正的统一的世界模型，就是它能统一各种不同模态，一个真正的scalable和general的architecture（可扩展、通用的系统结构）。二是能在没有人类数据输入的情况下，使AI持续进化。”“剩下很多问题，都是这两个因素推导出来的。今天谈到reasoning（推理）、agent（智能体），都是这两个问题解决后的产物。要再做一些雕花，但没有fundamental的blocker（根本性阻碍因素）。”

关于开源：“开源的贡献可能很多都没有经过算力验证。闭源会有人才聚集和资本聚集，最后一定是闭源更好，是一个consolidation（对市场的整合）。如果我今天有一个领先的模型，开源出来，大概率不合理。反而是落后者可能会这么做，或者开源小模型，搅局嘛，反正不开源也没价值。”

关于Sora：“Generative AI（生成式AI）做到这个效果，在意料之内，意外的是时间——比之前预估更早。这也反映了现在AI的发展很快，很多scaling的红利没有被完全吃下来。”“它本身是对世界建模，有了这个知识，对现有文本是非常好的补充。在这个基础上，不管在agent还是和物理世界的连接方面，有蛮多空间和机会。”

Sora的问题：“剩下的是它也没有完全解决，比如需要一个统一的architecture（架构）。DiT这个architecture仍然不是非常通用。在单纯对视觉信号的marginal probability（边际概率）去建模，它可以做得非常好，但怎么泛化成一个通用的新计算机？还是需要更unified architecture（统一的架构），这个东西还是有空间。”“通过对视频的边际概率去建模，本质是在做无损压缩，跟语言模型next token predictions没有本质区别。只要你压缩得足够好，就可以把这个世界可以被解释的东西去进行解释。但同时也有重要的还没做的事：它怎么跟已有的已经被压缩的能力结合起来？”“可以理解成有两种不同压缩。一种是压缩原始世界，这是视频模型在做的。另一种是压缩人类产生的行为，因为人类产生的行为经过了人的大脑，这是世界上唯一能产生智能的东西。你可以认为视频模型在做第一种，文本模型在做第二种，当然视频模型也一定程度包含了第二种，一些人创造出来的视频包含了创作者的智能。它最终可能会是mix，需要通过这两种方式从不同角度学习，但最终对智能的增长都有帮助。”“生成可能不是目的，它只是压缩这个函数。如果你压缩足够好，最后生成的效果就会很好。反过来，如果你这个模型本身没办法生成，是不是也存在可能把它压缩得非常好？这点存疑。有可能生成非常好，是压缩非常好的一个必要条件。”

Sora + GPT：“Sora马上可以用到视频生产过程中，但如果跟语言模型结合，就有可能打通数字世界和物理世界。另外，你也可以去更加端到端完成任务，因为现在你对这个世界的建模比之前更好，它甚至能用来提升你对多模态输入的理解能力。所以你最后能在不同模态之间做比较多切换。总结下来，你对世界的理解更好了，你可以在数字世界里做更加端到端的任务，甚至去架起一座桥梁，连接物理世界，完成一些物理世界里的任务。这是起点。比方说，自动驾驶，或者一些家务，理论上都是打通物理世界的一个概念。所以数字世界的突破是确定的了，但它也还是潜在有通往物理的可能。”

关于LLM的安全问题：“Safety反而表明了，他对接下来技术能力的提升有极大信心。他们是相反的”。