浅析ChatGPT-什么是模型
假设你想(像 16 世纪末的伽利略一样)知道从比萨斜塔各层掉落的炮弹分别需要多长时间才能落地。当然,你可以在每种情况下进行测量并将结果制作成表格。不过,你还可以运用理论科学的本质:建立一个模型,用它提供某种计算答案的程序,而不仅仅是在每种情况下测量和记录。
假设有一些(理想化的)数据可以告诉我们炮弹从斜塔各层落地所需的时间。
如何计算炮弹从一个没有明确数据的楼层落地需要多长时间呢?在这种特定情况下,可以使用已知的物理定律来解决问题。但是,假设我们只有数据,而不知道支配它的基本定律。那么我们可能会做出数学上的猜测,比如也许应该使用一条直线作为模型。
虽然我们可以选择不同的直线,但是上图中的这条直线平均而言最接近我们拥有的数据。根据这条直线,可以估计炮弹从任意一层落地的时间。
我们怎么知道要在这里尝试使用直线呢?在某种程度上说,我们并不知道。它只是在数学上很简单,而且我们已经习惯了许多测量数据可以用简单的数学模型很好地拟合。还可以尝试更复杂的数学模型,比如 a+bx+cx^2,能看到它在这种情况下做得更好。
不过,这也可能会出大问题。例如,下面是我们使用 a+b/x+c~\sin x 能得到的最好结果。
必须理解,从来没有“无模型的模型”。你使用的任何模型都有某种特定的基本结构,以及用于拟合数据的一定数量的“旋钮”(也就是可以设置的参数)。ChatGPT 使用了许多这样的“旋钮”—实际上有 1750 亿个。
但是值得注意的是,ChatGPT 的基本结构—“仅仅”用这么少的参数—足以生成一个能“足够好”地计算下一个词的概率的模型,从而生成合理的文章。