浅析ChatGPT
文章平均质量分 79
简单点,了解ChatGPT
andyyah晓波
这个作者很懒,什么都没留下…
展开
-
浅析ChatGPT-前方的路
但至关重要的是 Wolfram 语言代码所代表的“思想”的丰富性和“思想”流—与普通编程语言中的不同,更接近 ChatGPT 在自然语言中“像魔法一样”处理的东西。它可以描述某个计算结构,让 ChatGPT“即兴续写”人们可能对于该结构的计算上的说法,而且根据它通过阅读人类写作的大量材料所学到的东西来看,这“对人类来说将是有趣的”。这种有趣而独特的情况之所以能成真,得益于 Wolfram 语言的如下特点:它是一门全面的计算语言,可以用计算术语来广泛地谈论世界上和其他地方的事物。但结果从来不是“完美”的。原创 2024-06-26 14:15:51 · 573 阅读 · 0 评论 -
浅析ChatGPT-简单的例子
城市的坐标和计算距离的算法是 Wolfram 语言内置的计算知识的一部分。是的,Wolfram 语言拥有大量内置的计算知识—这是我们几十年的工作成果,我们精心梳理了不断更新的海量数据,实现(而且经常发明)了各种方法、模型和算法—并且系统地为一切构建了一整套连贯的计算语言。如果你再次提出该问题,它会给出正确的答案。此外,迷人(和有趣)的是,它给出的解释里存在不理解数学的人类可能会犯的错误。下面是我刚刚注意到的一个例子(ChatGPT 具有内在的随机性,因此如果你尝试问相同的问题,可能会得到不同的答案)。原创 2024-06-26 14:12:51 · 560 阅读 · 0 评论 -
浅析ChatGPT-利用 Wolfram|Alpha 为 ChatGPT 赋予计算知识超能力
几十年来,对 AI 的思考一直存在着两极分化:ChatGPT 使用的“统计方法”,以及实际上是 Wolfram|Alpha 的起点的“符号方法”。现在,由于有了 ChatGPT 的成功以及我们在使 Wolfram|Alpha 理解自然语言方面所做的所有工作,终于有机会将二者结合起来,发挥出比单独使用任何一种方法都更强大的力量。实际上,我们的文明在过去几个世纪中取得的一项伟大成就就是建立了数学、精密科学—最重要的是计算—的范式,并且创建了一座能力高塔,与纯粹的类人思维所能达到的高度完全不同。原创 2024-06-26 14:05:34 · 329 阅读 · 0 评论 -
浅析ChatGPT-ChatGPT 到底在做什么?它为什么能做到这些?
但是,(至少在它能够使用外部工具之前)ChatGPT“仅仅”是从其积累的“传统智慧的统计数据”中提取了一些“连贯的文本线索”。它并不总是能说出“在全局上有意义”(或符合正确计算)的话,因为(如果没有利用 Wolfram|Alpha 的“计算超能力”)它只是在根据训练材料中的内容“听起来像什么”来说出“听起来正确”的话。神经网络的基本操作也非常简单,本质上是对于它生成的每个新词(或词的一部分),都将根据目前生成的文本得到的输入依次传递“给其所有元素一次”(没有循环等)。原创 2024-06-26 14:00:44 · 280 阅读 · 0 评论 -
浅析ChatGPT-语义语法和计算语言的力量
但是,一旦它的整体计算语言框架被建立起来,我们就可以期待用它来搭建“广义语义逻辑”的高塔,让我们能够以精确和形式化的方式处理以前接触不到的各种事物(相比之下,我们现在只能在“地面层”处理人类语言,而且带有很大的模糊性)。不过,我强烈怀疑 ChatGPT 的成功暗示了一个重要的“科学”事实:有意义的人类语言实际上比我们所知道的更加结构化、更加简单,最终可能以相当简单的规则来描述如何组织这样的语言。例如,我们可以识别出“移动”的概念和一个“不因位置而改变身份”的“对象”的概念。这些“语义概念”的例子数不胜数。原创 2024-06-26 13:59:02 · 533 阅读 · 0 评论 -
浅析ChatGPT-意义空间和语义运动定律
但也许我们只是关注了“错的变量”(或者错的坐标系),如果关注对的那一个,就会立即看到 ChatGPT 正在做“像数学物理一样简单”的事情,比如沿测地线前进。例如,是否存在某种类似于“平行移动”的概念,反映了空间的“平坦性”?通过观察包含一个词的句子在特征空间中的布局,人们通常可以“分辨出”它们不同的含义,就像如下例子中的 crane 这个词(指的是“鹤”还是“起重机”?在上图中,我们展示了“轨迹”中的几步—在每一步,我们都选择了 ChatGPT 认为最有可能(“零温度”的情况)出现的词。原创 2024-06-26 13:57:23 · 354 阅读 · 0 评论 -
浅析ChatGPT-真正让 ChatGPT 发挥作用的是什么
括号语言是“严谨”的,而且是“算法式”的。一个关键的“类自然科学”观察结果是,神经网络的 Transformer 架构,就像 ChatGPT 中的这个,好像成功地学会了似乎在所有人类语言中都存在(至少在某种程度上是近似的)的嵌套树状的句法结构。一个微妙之处(实际上也出现在 ChatGPT 的人类语言生成中)是,除了我们的“内容标记”(这里是“(”和“)”)之外,还必须包括一个“End”标记,表示输出不应继续下去了(即对于 ChatGPT 来说,已经到达了“故事的结尾”)。第一个是语言的语法。原创 2024-06-26 11:22:57 · 850 阅读 · 0 评论 -
浅析ChatGPT-在基础训练之外
构建 ChatGPT 的一个关键思想是,在“被动阅读”来自互联网等的内容之后添加一步:让人类积极地与 ChatGPT 互动,看看它产生了什么,并且在“如何成为一个好的聊天机器人”方面给予实际反馈。首先,仅仅让人类对神经网络的结果评分。如果告诉它类似于“从这个到那个”等“浅显”的规则,神经网络很可能能够不错地表示和重现这些规则,并且它“已经掌握”的语言知识将为其提供一个立即可用的模式。更可能的是,虽然这些元素已经在里面了,但具体情况是由类似于“这些元素之间的轨迹”所定义的,而你告诉它的就是这条轨迹。原创 2024-06-26 11:20:25 · 483 阅读 · 0 评论 -
浅析ChatGPT-ChatGPT 的训练
(就个人而言,我一生中发表的文字总量不到 300 万个词,在过去 30 年中写下了约 1500 万个词的电子邮件,总共敲了大约 5000 万个词—而且仅在过去几年的直播中,我就说了超过 1000 万个词。是的,我会从中训练一个机器人。在某些方面,运作良好的“网络的规模”与“训练数据的规模”如此相似或许令人惊讶(在与 ChatGPT 结构相似的较小网络中实际观察到的情况也是如此)。根据误差“反向传播”的主要问题在于,每次执行此操作时,网络中的每个权重通常都至少会发生微小的变化,而且有很多权重需要处理。原创 2024-06-26 11:19:10 · 411 阅读 · 0 评论 -
浅析ChatGPT-ChatGPT 的内部原理
第二阶段,它以“标准的神经网络的方式”对此嵌入进行操作,值“像涟漪一样依次通过”网络中的各层,从而产生一个新的嵌入(即一个新的数组)。例如,(正如本节中单个“注意力块”的示意图所示)在注意力块内有一些对传入的数据“制作多个副本”的地方,每个副本都会通过不同的“处理路径”,可能涉及不同数量的层,然后才被重新组合。经过注意力头的处理,得到的“重新加权的嵌入向量”(在 GPT-2 中长度为 768,在 ChatGPT 的 GPT-3 中长度为 12 288)将被传递通过标准的“全连接”神经网络层。原创 2024-06-26 11:17:20 · 967 阅读 · 0 评论 -
浅析ChatGPT-“嵌入”的概念
为了找到嵌入,我们再次在神经网络“得到结论”之前“拦截”它的“内部”进程,然后获取此时的数字列表,可以认为这是“每个词的表征”。这里的关键概念是,我们不直接尝试表征“哪个图像接近哪个图像”,而是考虑一个定义良好、可以获取明确的训练数据的任务(这里是数字识别),然后利用如下事实:在完成这个任务时,神经网络隐含地必须做出相当于“接近度决策”的决策。一个这样的标准任务是词预测。我们稍后将更详细地讨论这种嵌入的“认知”意义可能是什么,而现在的要点是,我们有一种有用的方法能将词转化为“对神经网络友好”的数字集合。原创 2024-06-26 11:04:53 · 773 阅读 · 0 评论 -
浅析ChatGPT-足够大的神经网络当然无所不能!
而正是这些工具的使用,无论是实用性的还是概念性的,近几个世纪以来使我们超越了“纯粹的无辅助的人类思维”的界限,为人类获取了物理宇宙和计算宇宙之外的很多东西。但我们的现代技术世界是建立在工程学的基础上的,而工程学利用了数学计算,并且越来越多地利用了更一般的计算。是的,我们可以记住在某个特定计算系统中发生的事情的许多具体例子,也许甚至可以看到一些(计算可约的)模式,使我们能够做一些泛化。换句话说,神经网络能够在写文章的任务中获得成功的原因是,写文章实际上是一个“计算深度较浅”的问题,比我们想象的简单。原创 2024-06-26 11:01:58 · 407 阅读 · 0 评论 -
浅析ChatGPT-神经网络训练的实践和学问
在某种程度上,这让人想起了通用计算(universal computation)的概念和我的计算等价性原理(Principle of Computational Equivalence),但是,正如后面将讨论的那样,我认为这更多地反映了我们通常试图让神经网络去完成的任务是“类人”任务,而神经网络可以捕捉相当普遍的“类人过程”。因此,要获得“训练样例”,要做的就是取一段文本,并将结尾遮盖起来,然后将其用作“训练的输入”,而“输出”则是未被遮盖的完整文本。在过去的十年中,神经网络训练的艺术已经有了许多进展。原创 2024-06-26 11:00:05 · 745 阅读 · 0 评论 -
浅析ChatGPT-机器学习和神经网络的训练
结果是,我们可以—至少在某些局部近似中—“反转”神经网络的操作,并逐步找到使与输出相关的损失最小化的权重。随着训练过程不断进行,我们看到损失函数逐渐减小(遵循特定的“学习曲线”,不同任务的学习曲线不同),直到神经网络成功地复现(或者至少很好地近似)我们想要的函数。在该“训练”的每个阶段,都会逐步调整神经网络的权重,我们会发现最终得到了一个能成功复现我们想要的函数的神经网络。正如我们之前看到的,神经网络不仅能识别猫图像的样例的特定像素模式,还能基于我们眼中的某种“猫的典型特征”来区分图像。原创 2024-06-26 10:57:29 · 711 阅读 · 0 评论 -
浅析ChatGPT-神经网络
给定神经元的值是这样确定的:先分别将其“前一层神经元”的值乘以相应的权重并将结果相加,然后加上一个常数,最后应用一个“阈值”(或“激活”)函数。在此过程中,我们“识别”出这个图像,最终“形成”我们“正在看数字 2”的“想法”(也许最终会做一些像大声说出“二”这样的事情)。但值得注意的是,一些神经网络(像上面展示的这个)的前几层似乎会挑选出图像的某些方面(例如物体的边缘),而这些方面似乎与我们知道的大脑中负责视觉处理的第一层所挑选出的相似。在“每个吸引子盆地的中心”,我们通常能确切地得到想要的答案。原创 2024-06-26 10:51:21 · 1034 阅读 · 0 评论 -
浅析ChatGPT-类人任务(human-like task)的模型
没错,对于蜜蜂或章鱼的图像,答案无疑会有所不同,而对于虚构的外星人的图像,答案则可能会完全不同。最终的结果是,如果我们将一个图像的像素值集合输入这个函数,那么输出将是一个数,明确指出该图像中是什么数字。稍后,我们将讨论如何构建这样的函数,并了解神经网络的思想。但现在,让我们先将这个函数视为黑盒,输入手写数字的图像(作为像素值的数组),然后得到它们所对应的数字。但是,如果我们的目标是为人类在识别图像方面的能力生成一个模型,真正需要问的问题是:面对一个模糊的图像,并且不知道其来源,人类会用什么方式来识别它?原创 2024-06-26 10:45:56 · 403 阅读 · 0 评论 -
浅析ChatGPT-什么是模型
不过,你还可以运用理论科学的本质:建立一个模型,用它提供某种计算答案的程序,而不仅仅是在每种情况下测量和记录。你使用的任何模型都有某种特定的基本结构,以及用于拟合数据的一定数量的“旋钮”(也就是可以设置的参数)。但是值得注意的是,ChatGPT 的基本结构—“仅仅”用这么少的参数—足以生成一个能“足够好”地计算下一个词的概率的模型,从而生成合理的文章。虽然我们可以选择不同的直线,但是上图中的这条直线平均而言最接近我们拥有的数据。假设有一些(理想化的)数据可以告诉我们炮弹从斜塔各层落地所需的时间。原创 2024-06-26 10:43:26 · 289 阅读 · 0 评论 -
浅析ChatGPT-概率从何而来
使用这些信息,就可以开始生成“句子”了,其中的每个词都是独立随机选择的,概率与它们在语料库中出现的概率相同。以下是我们得到的一个结果。可以想象,如果能够使用足够长的 n 元词,我们基本上会“得到一个 ChatGPT”,也就是说,我们得到的东西能够生成符合“正确的整体文章概率”且像文章一样长的词序列。有了足够多的英文文本,我们不仅可以对单个字母或字母对(二元字母)得到相当好的估计,而且可以对更长的字母串得到不错的估计。就像处理字母一样,我们可以不仅考虑单个词的概率,而且考虑词对或更长的 n 元词的概率。原创 2024-06-26 10:41:10 · 896 阅读 · 0 评论 -
浅析ChatGPT-它只是一次添加一个词
在进入下一节之前,需要解释一下,为了方便阐述,我在大多数情况下不会使用 ChatGPT 中的完整系统,而是使用更简单的 GPT-2 系统,它的优点是足够小,可以在标准的台式计算机上运行。值得指出的是,即使在(温度为 0.8 的)第一步,也有许多可能的“下一个词”可供选择,尽管它们的概率迅速减小(是的,如下面的对数图所示,点的连线对应于 n^{-1} 次幂律衰减,这是语言的一般统计特征)。最终的结果是,它会列出随后可能出现的词及其出现的“概率”(按“概率”从高到低排列)。首先,需要检索底层的“语言模型”。原创 2024-06-26 10:37:17 · 728 阅读 · 0 评论 -
浅析ChatGPT-前言
可以说这是一个关于技术的故事,也可以说这是一个关于科学的故事、一个关于哲学的故事。为了讲述这个故事,我们必须汇集数个世纪以来的一系列非凡的想法和发现。看到自己长期以来感兴趣的众多事物一起得到突飞猛进的发展,我感到非常兴奋。从简单程序的复杂行为到语言及其含义的核心特征,再到大型计算机系统的实用性,所有这些都是 ChatGPT 故事的一部分。ChatGPT 的基础是人工神经网络(本书中一般简称为神经网络或网络),后者最初是在 20 世纪 40 年代为了模拟理想化的大脑运作方式而发明的。原创 2024-06-26 10:27:31 · 137 阅读 · 0 评论