为什么Yann lecun知乎问题——（杨立昆）对chatGPT持否定态度？

最新推荐文章于 2025-03-11 17:13:27 发布

YJII

最新推荐文章于 2025-03-11 17:13:27 发布

阅读量676

点赞数

分类专栏：论文记录心理专栏-我心语文章标签： chatgpt 人工智能

本文链接：https://blog.csdn.net/Hekena/article/details/129135357

版权

论文记录同时被 2 个专栏收录

147 篇文章

订阅专栏

心理专栏-我心语

3 篇文章

订阅专栏

邱希鹏：作者：邱锡鹏
链接：https://www.zhihu.com/question/582340981/answer/2895875148
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

LeCun一定是忘了当年别人是如何对待他这个做神经网络的研究者了。2012 年，在计算机视觉领域的知名华人科学家朱松纯担任 CVPR 大会主席期间，LeCun 曾给他写信抱怨，自己的论文报告了很好的实验结果，但是审稿的三个人都认为论文说不清楚到底为什么有这个结果，于是便拒稿。LeCun 一气之下便声明再也不给 CVPR 投稿，还把审稿意见挂在网上以示抗议，并指责论文评审人员「无知」和「有偏见」。其后，LeCun 和 Bengio 共同创办了 ICLR（International Conference on Learning Representations，国际学习表征会议），希望为「深度学习」提供一个专业化的交流平台。LeCun 曾回忆起 Hinton 团队夺冠后那些曾对「神经网络」不屑一顾的专家们的态度转变，「好吧，现在我们认同你，你们赢了。」引用自：「少数派」的深度学习成长史 - 动点科技 (technode.com)ChatGPT的问题大家都看到了，不是只有LeCun，但其实无伤大雅，改进就是了。人们看好ChatGPT，不是只因为他现在具有的能力，而是他展示了未来通向通用人工智能的路径。就像看一个很有潜力的小孩，有些缺点，而LeCun非得一棒子打死（只能用来辅助写作之类的话），终于变成了他当年讨厌的人。补充，看评论很多人说这个不是一回事，但我认为性质是一样的。很多这两年进入AI领域的人可能会觉得神经网络是天经地义的事，但是在2010年左右的时候大多数人的观点还是神经网络没有理论支撑，只能暴力拟合数据，没有可解释性。即使后来深度学习爆发出来很强的威力，还是有很多人不相信。至今有不少学者还是认为深度学习就是在瞎搞。做研究更应该是宽容的态度，而不是一味地贬低别人的方法。

用户1：Yann LeCun 对 GPT 系列的观点可能是基于以下几点：数据驱动：杨乐昆认为，GPT 系列模型的能力取决于大量的训练数据，而不是技术本身。泛化能力：杨乐昆认为，GPT 系列模型的泛化能力不佳，在处理复杂任务时容易出错。缺乏理解：杨乐昆认为，GPT 系列模型缺乏对语言和世界的真实理解，不能像人类一样进行推理和思考。不符合人工智能的正确方向：杨乐昆认为，真正的人工智能应该基于知识和概念，而不是大量的数据。总的来说，杨乐昆对 GPT 系列的否定态度可能是基于他对人工智能的理解和期望，以及对 GPT 系列模型的性质和限制的评估。但同时也可以说，GPT 系列模型在自然语言处理领域的应用和贡献也不可忽视。发布于 2023-02-06 15:32

作者：来来来
链接：https://www.zhihu.com/question/582340981/answer/2879412712
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

用户2：作者：匿名用户
链接：https://www.zhihu.com/question/582340981/answer/2895330648
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

这里涉及的一个根本问题就是——【如何看待“大规模预训练”和“出生即有的生物智能”之间的关系】对ChatGPT持反对意见的人基本都可以总结成一个观点：基于大量数据得到的统计学规律不是智能，智能是要有清晰的推理结构、自我意识和不依赖于统计分布的“仅从逻辑中挖掘逻辑”的能力，而大规模预训练模型本质上并不具备这个能力，只是通过大量数据拟合而模仿了真正的智能的呈现表象一个可以用于解释他们观点的例子就是：刚出生的婴儿了解的知识根本没有大规模预训练模型多，但他们一样可以很快的学会叫爸爸，而基于海量数据预训练的模型也最多只能做到像chatGPT那样极其蹩脚的自主学习（本质是few shot）但他们忽略了极其重要的一点——这种“从逻辑挖掘逻辑，而非从数据总结逻辑”的能力，其实是基于一个又一个基本的举一反三（e.g. 学会加法运算规则后，便会做所有加法题）单元构成的，而大规模预训练模型的one-shot、few-shot能力，恰恰很有可能是这种“从逻辑挖掘逻辑”能力的雏形。那么，如果按照这个思路，又该如何解释那个婴儿悖论呢？答案很简单，那就是婴儿本身在出生之前，便早就拥有了在大规模数据上预训练过的大规模参数权重了。婴儿叫爸爸的这种few-shot能力，其实就是这种大规模预训练参数权重的能力体现。我们目前在NLP领域搞得预训练工作，其实本身就是在完成“制造一个婴儿”的这个过程，只是我们造出来的婴儿智力水平低下而已。那么又一个问题来了，我们人类的婴儿，到底是什么时候预训练的呢？我大胆猜测，从草履虫到灵长类动物的亿万年进化过程，很有可能就是我们的预训练过程，我们的模型参数权重，写在了DNA里被一代又一代更新。我们每一个人的一生，从出生那一刻开始就是一个预训练好的模型，终此一生都在few-shot而已。只是我们的few-shot能力比GPT强太多太多。另外，大猩猩的基因跟我们的不一样，这种差异其实可以看作是一种finetune的结果（finetune改变参数，few-shot不改变参数）。那么我们为什么不是像chatGPT一样，在出生就了解许许多多的海量知识呢？那是因为从造物主这个尺度上，所有你目光所及的世间典籍和人类知识，不过是一个极其小众的猎奇的下游任务而已，仅靠few-shot就可以解决，不需要更新权重（DNA）。而绝大部分我们习以为常的自然生物属性（例如被打了就会哭，比如吃饭会张嘴，眼睛干了会眨眼睛等），则需要pretrain或者finetune，这也是为什么我们直立行走而马四条腿行走的原因。换言之，我们的dna里已经早就掌握了许许多多的海量知识，只是你不觉得那是知识而已。