写给小朋友看的AI大模型工作原理,爸爸妈妈可以讲给孩子听

背景介绍

        我家有两个小孩,一个小学,一个中学。自从DeepSeek火起来以后,家里的小朋友也开始跟大模型聊天。很好奇AI怎么能理解他说的话,又是怎么给他回答的呢?又会猜谜语,又会写诗,还会做数学题,简直无所不能。当他们问我AI是怎么能做到这么多事情的时候,我一时语噎,不知如何作答。

        想给小朋友解释清楚生成式AI,比如ChatGpt、DeepSeek、通义千问这样的生成式大模型的工作原理,还真不是一件容易的事儿。如果要从最基本的原理讲起,需要深厚的计算机和数学知识,光是理解一堆专业术语就够我一个专业搞计算机软件的人受的,底层的算法对我来说也是难如登天,更何况对小朋友来说。

        怎样才能把大模型的工作原理给孩子们讲清楚呢?经过几天的思考,我决定先进行认识分层,然后再根据每层的特点,随层级递增逐步加入更深入的概念,从纯感性到纯理性慢慢建立起对生成式AI大模型工作原理的理解。

五个层次的认知理解

最终,我把问题分成了五个层次:
1. 第一层:小学水平,举例子,玩游戏;
2. 第二层:中学水平,类比,举例,基础数学;
3. 第三层:大学水平,基本术语,基本原理;
4. 第四层:专业水平,计算机术语,架构原理;
5. 第五层:研发水平,计算机原理,算法原理;

        不过这篇文章我只打算写第一层和第二层,定位为给小朋友(小学生与中学生)写的大模型工作原理。因为针对第三层认识的,网上已经有很多很棒的科普文了。对第四层感兴趣的,应当是相关从业人员,他们会阅读研发工作人士的专业文章。而对第五层感兴趣的,会直接去读论文了。

第一层:写给小学生看的,建议爸爸妈妈带读

一、从猜物品游戏说起

        小朋友们应该都玩过一个猜物品的游戏,出题的人会说出某个物品的几个特征,让小朋友来猜是什么东西。

示例:
- 出题人说:有一样东西,它是“红色的” 。- 小朋友想:“红色的”,有红旗、太阳公公、西红柿、苹果……“太多啦,猜不到!”- 出题人说:它是“圆的”哦!- 小朋友想:“红色的”,还是“圆”的,那肯定不是红旗,有可能是太阳公公,西红柿、或者是苹果。到底是什么呀?- 出题人说:是你最喜欢吃的哦!- 小朋友想:小朋友脱口而出,是“苹果”!

其实,生成式AI大模型就是在做这样的猜物品游戏。

二、现在我们来跟AI玩这个游戏

小朋友说:

请你猜一个东西,它是红色的、圆的、我最喜欢吃的。

—————————
AI开始想

1. 首先,我得把小朋友的话拆分成关键词:“猜”“一个东西”“红色的”“圆的”“我最喜欢”“吃的”。

2. 然后,我得用这些关键词去查我身上带着的那本百科大词典:

(1)我先查查,什么东西是“红色的”的呀?查出来是“红旗,太阳公公,西红柿,苹果……”

(2)我再查查,这些东西里面哪些是“圆的”呀?查出来是“太阳公公,西红柿,苹果”;

(3)我再查查,这些东西里面哪些是“吃的”呀,查出来是“西红柿,苹果”。

(4)我最后查,哪个是“我最喜欢”的呀? 这时候AI有点为难了,这个小朋友是第一次跟我对话,我的百科大字典里可没记录这个小朋友“最喜欢吃什么”,我怎么知道他喜欢吃“西红柿”还是“苹果”呢。 不过以前有别的小朋友跟我说过话,他说他喜欢吃“苹果”。而且,在我的百科大字典里记录着,大部分小朋友更喜欢吃“苹果”而不是“西红柿”,所以我知道啦,是“苹果”。

3. 最后,我注意到对话里,小朋友让我“猜”,于是我知道怎么回答了:“我“猜”是“苹果”。”

—————————
小朋友说:你猜对啦!

—————————
AI开始想:

        小朋友说我猜对了。我记住了,他最喜欢吃苹果。并且,更加证明了小朋友更喜欢吃“苹果”而不是“西红柿”。

注:上述解释其实不太准确,爸爸妈妈可以试着给孩子解释下面的准确理解。但如果小朋友不能理解,按原文理解也可以的。
1. 本百科大词典里记录的其实不是文字哦,它是经过计算机计算出的数字密码,我们人可看不懂。不过计算机嘛,最厉害的就是计算,所以数字对它来说才是最好的文字呢。

2. AI查找答案时,并不是一个特征一个特征对比哦,那样太慢啦。它其实是一次性把“红的”,“圆的”,“吃的”计算成一个数字密码,再去本百科大词典扫描密码,一下子就找出来了。最后,它还要根据它以前学习到的知识,孩子“最喜欢的吃的是苹果”来决定最后选择“苹果”而不是“西红柿”哦。

3. AI只能在这一次对话过程中记住小朋友的话,关掉对话后它就忘掉啦。不过,科学家叔叔提前帮小朋友训练过了,让它记住了大部分小朋友都喜欢吃苹果,所以它总是能猜对你的谜语。

4. 百科大词典其实只记录最基本的字词,它的“语言”是动态“生成”出来的,并不会存在百科大词典里。不过这点就不用跟小朋友解释了,对小朋友来说有点过于复杂了。

三、现在我们可以了解生成式AI是怎么构成和工作的了

1. 它有一本百科大词典,里面记录了很多东西的特征。比如 :

- 苹果: ["红的","圆的","甜的","水果","手机"……]
- 西红柿:["红的","圆的","酸的","蔬菜"……]
- 太阳:["红的","圆的","热的","明亮的"……]
- 可以吃的:["苹果","西红柿","米饭","巧克力"……]
- 小朋友喜欢的:["苹果","香蕉","西瓜"……]
- ……

每样东西,比如苹果,在百科大词典里被记录成一串数字密码,找到这串密码就能找到它。

2. 它有一对灵敏的耳朵,可以听清楚你问题里的关键词 。比如:

- 小朋友问:什么东西是红色的、圆的、我最喜欢吃的呢?
- 耳朵听到:"红的","圆的","我最喜欢","吃的"

3. 它有一个聪明的大脑,像闪电一样快!它能在一瞬间把所有的关键词(红色、圆、吃的)变成一个数字密码,然后用这个密码扫描整本词典,快速找到最合适的答案。 比如:

它会发现“苹果”在["红的","圆的","吃的"]这几个密码里最匹配!因此它一下子就找到答案了。

4. 它有一张灵巧的嘴,可以说出清楚和动听的话语。 比如:

- 它也许会说:我猜到啦,答案是"苹果",我聪明吧!
- 如果小朋友表扬它:你真棒!
- 它也许会说:谢谢你!我很喜欢猜谜语,如果你还有新的谜语的话,赶紧让我猜吧。

        所以呀,AI是一个聪明的家伙,它有一本百科大词典,里面记录了很多东西的特征。当小朋友问它问题的时候,它用灵敏的耳朵听清楚小朋友问题的特征关键词,然后用聪明的大脑根据关键词从百科大词典里找出符合特征的答案,再用灵巧的嘴巴把答案告诉给小朋友。


第二层:写给中学生看的

        在第一层小学生玩的猜物品游戏里,小朋友是依据字词的“含义”在思考的。比如“红的”、“圆的”,小朋友能够想像出颜色和形状,在脑子里拼凑线索,进而逐步接近答案。然而在计算机世界里,一切只有0、1和算法,大模型不理解语言和字词的含义,更不会在“脑子”里通过“颜色”和“形状”去拼凑线索。那么它是如何完成猜物品游戏的呢?

一、 大模型会说话的秘密:字词的相关性和概率

        计算机是通过计算两个“字词”之间的关联概率来拼凑答案的。


1. 相关性
        相关性是指两个“字词”之间有关联。比如,"红色"和"苹果"。如果在训练大模型的时候,我们让它学习的文章中出现了“我拿着一个红色的苹果”或“她的小脸好似红苹果”这样的句子,大模型就能认识到,“红色”与“苹果”是有相关性的。

2. 概率
        概率是指两个“字词”之间有关联的可能性的大小,比如,如果在训练大模型的时候,我们输入了100句话,其中有10句话都提到了“红色”和“苹果”,只有一句话提到了“青色”和“苹果”,那么大模型会认为“红色”和“苹果”相关的概率高,“青色”和“苹果”相关的概率低。而“黑色”和“苹果”由于一次也没提到,所以大模型认为“黑色”和“苹果”不相关。

3. 大模型的“语言”生成
        实际上,大模型理解我们输入的话的过程,以及它回复给我们的过程,一直都在做“字词”之间相关性计算和概率选择。 举例来说,如果训练过程让大模型学习的文章中多次出现“红色的苹果”、“圆圆的苹果”等句子,大模型就会记录下“红色”、“圆的”和“苹果”之间有相关,并且概率高,所以当你问到“红色的、圆的”时候,大模型选择概率最高“字词”来回答,就会很自然得出“苹果”的结论。

        反之,如果换了一颗星球,那里的西瓜是红色的,苹果是黑色的,外星人训练时喂给大模型的语料中的描述就会是“红色的西瓜”,“黑色的苹果”。那么,在另一颗星球上,同样的问题“请你猜一个东西,它是红色的、圆的、我最喜欢吃的”,大模型的回答将会是“西瓜”。

4. 大模型说出连贯的话的秘密

        那么大模型是怎么说出连贯的话来的呢?它其实还是在做猜谜游戏,只不过谜面是对话过程中的所有文字,谜底是猜出来的最符合的下一个字词。

        大模型连贯“说话”的过程是一个叫做“自回归”的计算过程。所谓自回归,就是把猜出来的字词放到句子末尾,做整体的相关性计算,根据概率猜出下一个字词之后,把猜出字词放回句子末尾,再一次做整体的相关性计算,再来猜下一个字词。

例如:

用户问

请你猜一个东西,它是红色的、圆的、我最喜欢吃的。

大模型:

- 根据从海量的学习中得到的知识,当用户说“你猜”的时候,回答中概率最高的以是“我”开头的,于是它便猜出了第一个字“我”

-  然后,大模型把“我”放到末尾,这时整个句子变成 “问:请你猜一个东西,它是红色的、圆的、我最喜欢吃的。答:我”

- 之后,大模型再次计算这一整句话的相关性,根据概率预测跟在“我”后面的下一个字词应该是“猜”

- 于是,句子变成了“问:请你猜一个东西,它是红色的、圆的、我最喜欢吃的。答:我猜”

……

-大模型的语言生成模块就这样一个字词一个字词的猜下去,最终完成“问:请你猜一个东西,它是红色的、圆的、我最喜欢吃的。答:我猜是苹果”这样的回答。

二、 训练大模型的秘密:构造字词的相关性矩阵

        神秘的大模型训练和学习过程,实际上就是让它阅读很人类书写的很多文章,让它根据文章中各种字词之间的分布,来建立字词之间的相关性和概率分布。

        为了理解AI训练和学习的秘密,我们得从人类学习的过程开始讲起。

1. 人类的学习过程

        我们刚开始学习的时候,是学习单字和组词。这一过程就是在大脑中建立字与字之间的相关性。比如学会了组词"学习"、"学生",相当于在大脑中建立了"学""习"、"学""生"之间的相关性。如果某些字与字之间的相关性极高,我们会把它当成独立的词,即把"学习","学生"看作一个整体。

        接着,我们开始学习造句。这是在更大范围内建立更多字词之间的相关性。比如,造句"我是一个学生",相当于在大脑中建立了"我","是","一个","学生"之间的相关性。

        最后,我们学会了阅读和写作,这是在一整篇文章范围内建立起"字词"的相关性。 例如,当老师让我们以"春天"为题写作文时,我们经过对字词的学习,对关于"春天"的范文的阅读和学习,在写作时,我们的脑子里就会想到“风和日丽”、“阳光明媚”这样的词。

        阅读范文相当于在我们脑子里给“春天”和“风和日丽”、“阳光明媚”之间建立了相关性。我们看到这样写作的文章越多,我们就越倾向于在写“春天”的时候用“风和日丽”、“阳光明媚”这样的字词。这相当于说在我们脑子里,"春天"和"风和日丽"、"阳光明媚"之间的相关概率很高。

        反之,由于我们很少甚至没有看到过范文有描写“春天”“寒风凛冽”、“热浪滚滚”的句子,因此,我们脑子里认为它们的相关性很低,甚至没有相关,因此我们写作时也就不会这样用。尤其是当小朋友某次写"春天""风和日丽"被老师表扬,而写"春天""热浪滚滚"被老师批评时,就会进一步强化"春天"和"风和日丽"之间关联的强度,进一步弱化"春天"和"热浪滚滚"关联强度,我们就更喜欢写"春天风和日丽",再不会写"春天热浪滚滚"了——这其实是人类学习过程中的奖励机制

2. AI学习过程与人类学习过程有很大的相似性

        与人类学习类似,训练大模型的学习过程也是先建立基础的字词库,比如把《现代汉语词典》喂给它,形成基础的字词库,用编码的形式“嵌入”到大模型中去。这样,大模型就能够选择适合的字词来进行“阅读”和“写作”了。

        之后,我们用大量的文章让大模型阅读学习。大模型在阅读学习的过程中逐步建立起了字词之间的相关性和概率。比如,我们给大模型大量阅读关于“春天”的文章,它就会记录下“春天”和“风和日丽”、“阳光明媚”之间存在相关性:

1)如果100篇关于“春天”的文章里有50篇提到了“风和日丽”,那么大模型可能会认为这两个词相关的概率可能是[50%];

2)如果100篇关于“春天”的文章里有20篇提到了“阳光明媚”,那么大模型可能认为这两个词相关的概率可能是[20%] 。

3)接下来,我们尝试跟AI对话,让它回答关于“春天”的问题,它大概率会回复“风和日丽”,也可能会回复“阳光明媚”,几乎不可能会回复“寒风凛冽”。每次回答正确,我们可以给它标记“正确”,给予正面反馈。

4)如果某一次,AI回复“寒风凛冽”,我们就需要标记“错误”,给予负面反馈。

5)我们的反馈会引起AI对字词分布概率的重新计算,逐步调整,直到满足预的正确率。

注:这里列举的概率值只是为了好理解而举的例子,实际上要复杂得多。大模型运算其实也并不只是简单的共现概率计算,而是条件概率计算。不过对中学生来说,理解到这里就足够了。

        当我们让大模型阅读过人类历史上几乎所有的文章后,大模型就依据这些知识建立起了一个极其庞大的字词相关性矩阵。这就是大模型的知识库,也就是我们经常看到的大模型的参数

        例如,“春天”可能在成千上万的文章中出现过,曾经与几十上百亿的其它字词在不同文章中正相关或负相关,AI都要将这些信息转化成相关性存储成为参数。当我们问AI关于春天的话题时,它要从这个庞大的参数矩阵当中计算相关性,从知识库中采样出最恰当的“知识”,并根据概率预测用哪些字词组成句子回复才能准确回答用户的问题。

        这就是为什么大模型“”的原因,因为它必须学习足够多的知识,积累足够大的字词相关性矩阵,它才能够准确“理解”并“回答”你的问题。例如,同样是“春天”的话题,如果你在跟他聊“古诗”,它就不会回答“风和日丽”,而更可能是“万紫千红”总是“春”。也就是说,大模型构建的知识库里,“春天”不但与形容词相关,还与时代相关。甚至,如果你跟它聊游戏,它还能识别到你在聊的其实是一种叫"春天"的扑克牌游戏。

        事实上,大模型有一种能力,它会“注意”到你谈话中的“关键词”。例如,当它“注意”到了你说到了关键词“古诗”,它就会调高“春天”与“古诗”的相关性,而降低“春天”与“风和日丽”的相关性,从而输出“万紫千红”总是“春”,而不是“风和日丽”。这种能力称之为“注意力权重”。这一点后面再解释。

三、大模型记住它所学会的知识的秘密:向量

        为了理解大模型记忆的秘密,我们仍然从人类记忆的秘密开始说起。

1. 人类记忆的秘密

        在科学研究中,人类的记忆与神经元有着紧密的关系。所谓记忆的形成,是外部信息对大脑神经元的刺激。比如眼镜看到“春天”“阳光明媚”这两个词的组合时,两个神经元之间突触的连接信号会变强。眼睛看到的越多,说的越多,写的越多,信号强度就越大,神经元之间的连接也越强,“记忆”也就越深刻。最后会形成一个整体,变成“永久”记忆。

        所以,学习好的秘诀就是多听、多看、多想、多练习,通过信号刺激让你脑子里的神经元连接得更紧密、更强,你自然就会越聪明。

2. AI大模型通过“向量”来形成“记忆”

        那么大模型是怎么形成记忆的呢?人类记忆的单元是神经元,而在大模型里,记忆的单元是向量,它描述了数学形式上一个高维空间中的点。OPS……这看上去很难理解,不过,我们可以换种方式去理解它。

        还记得吗?在猜谜语游戏里,我们这样来描述苹果:

苹果: ["红的","圆的","甜的","水果"……]

        这就是一个向量。它由许多“维度”组成,中括号中每个特征都是一个维度。如果维度不好理解,我们也可以直接理解成许多“特征”。这些“特征”共同描述了“苹果”这个物品。显然,特征越多,描述就越精确。

        同样的方法,我们也可以用这样的形式描述一个你的同学“小明”:

小明: ["男的","瘦的","高的","大眼睛","戴眼镜",……]

        问题是,小明向量里的特征值是怎么放进去的呢? 当然是通过对大模型训练生成的。

        初始,AI对“小明”一无所知,小明向量里的维度,也就小明的特征值是随机的。这时候小明向量可以是任何人,也可能不是任何人。因为所有特征都是随机的。

        于是我们给AI读一篇你写的文章《我的同学小明》,你写道“我的同学小明是一个很特别的男生,他瘦瘦的,高高的,眼睛大大的,虽然戴着眼镜,看起来很文弱,但力气特别大。”

        大模型在学习这篇文章的过程中,会把这篇文章中的关键词提取出来,形成与“小明”的关联,并计算与“小明”关联的“概率”,得到一个值,并把这些概率填写到“小明”这个向量中,这就形成了对“小明”的“记忆”。

        接下来,当你问大模型“谁又高又瘦,力气却特别大时”,大模型就很可能找到“小明”了。

        可以说,在AI大模型里,所有的信息都是以向量形式存在的,所有的向量都由许多维度值组成的。那么很显然的,特征值越多,描述就越精确。那一个向量的维度数量,或者说特征值有多少是怎么确定的呢?

        这是由大模型的开发者在一开始就确定的,比如:

  • DeepSeek-R1:每个向量有4096维;
  • 通义千问72B:每个向量有6144 维;
  • GPT-3:每个向量高达12,288 维;

        维度越多,我们就越能掌握特别精细的特征,但对计算机运算能力的消耗也就更加巨大。这从设计一开始就决定了。但在大部分情况下,我们并不需要那么多的维度。例如猜谜游戏中,只需要知道“男生”,“又高又瘦”,“力气很大”,你很可能已经猜出答案是“小明”了。剩下的维度就是一种对计算资源的“浪费”。这就是为什么GPT-3比DeepSeek对计算资源的需求多得多,昂贵得多。

四、大模型能够读懂你,给每个问题不同回答,显得很聪明的秘密

        经过前面的学习,我们已经了解了大模型是通过字词相关性来理解一句话并作出回答的,知道了我们是怎么通过训练教会大模型字词之间的相关性从而建立知识库的,也明白了它是如何通过向量记住这些相关性知识的。        

        不过,上面的过程似乎只说明了大模型学会并记住了人类已有的知识,并能够通过相关性计算和概率采样,将它之前学到的知识返回给你。那么,它似乎只是一本最大最全的“百科全书”,它应该不能够“自主创作”才对,因为它不过是在“智能的查找”知识库已经有的知识。

        但确实,我们跟大模型对话时千变万化,AI给我们的回答也千差万别,不同的人不同的问题,不同的人相同的问题,甚至同一个人反复问同一个问题,AI的回答都不尽相同。它似乎能读懂每一个人,甚至会“拍你的马屁”。

        显然,这些回答并不在之前的训练材料中。比如,我们可以让AI用古文写一篇现代的科幻故事,古人肯定没写过这样的文章啊。那AI怎么学会用古文写现代科幻故事,还能写得很好,这是为什么?

        为了方便理解,我们同样得从人类的创作过程开始说起。

1. 人类的创作过程

        人类是否能够写出一篇好文章,我们可以概要地归纳出三个要素:

(1)字词:表示创作者掌握的字词的数量。比如一个小学学历的人,只掌握500个字,成语都不认识几个;而一位中文系博士,掌握了《现代汉语词典》的60,000个词条。显然,后者更可能写出好文章。

(2)知识:表示创作者掌握的文法、语法、生活经历、阅读量、各类学科知识……等等,它影响创作者的思维广度和深度。

(3)意图:表示创作者希望从哪个角度,以什么文法、用什么笔法、表达什么中心思想。它体现了创作者想要表达的“价值”。

        对人类来说,“字词”是有数量上限的,但光会背词典并不能写出好文章;“知识”是通过学习得到的“经验”,一个人读万卷书,走万里路,学习到的知识越多,他的思维越开阔,越深刻。例如,一个从未到过大沙漠的人,很难写出好的塞外文章;“意图”是创作者创作的目的,他可能根据不同场合、不同目的,决定使用哪些知识,采用什么文法技法,运用哪些字词来表达他的“意图”,从而体现出具体的“价值”。

        可见,在人类创作过程中,“字词”对每个人都一样,但每个人的“知识”不一样,尤其是每个人的“意图”不一样,面对同一个命题作文题目,每个人写出来的效果都是不一样的。

大模型的设计也类似人类的创作过程,我们可以这样来做类比

  • 字词 - 向量
  • 知识 - 参数
  • 意图 - 注意力权重

大模型正是通过这三个关键要素来实现“自我创作”,从而变得“聪明”的。

2. 大模型变聪明的秘密

(1)向量

        向量相当于人类的“词典”,它将人类的字词编码,并“嵌入”到大模型中,使得大模型可以随时根据编码查找到这个字词。

        “词典”是固定的,一旦生成好,在AI学习过程中不会变化,除非重新修正。 这好比人类阅读写作只会引用词典,但不会改变它。除非“词典”编撰者重新修订。

2)参数

        参数相当于人类经过学习所掌握的“知识”。在我们脑子里,知识并不体现为“结果”,比如我们不是记住了“1+1=2”,而是学会了“加法规则”,从而可以解决所有的加法。

        同样,在训练大模型的过程中,例如让AI阅读《我的同学小明》之后,大模型并不会把

小明: ["男的","瘦的","高的","大眼睛","戴眼镜",……] 

        这样的知识存到“词典”,变成死知识,而是转换小明与这些特征之间的相关性概率,把这些概率保存成参数。每个参数是由多维数组构成的,它通过数组里的值来描述它所学到的“知识”。因此参数表达的并不是一条固有的知识,而是“小明”这个字词在整个“字词”空间中,与其它所有“字词”的相关性概率。好比我们学习到的不是“1+1=2”,而是“加法规则”。

        参数是经过不断学习所形成的。比如,大模型仅仅学习《我的同学小明》显然不足以精确的描述“小明”,它还需要学习更多的知识。

        例如我们会让它学习《体育场上的小明》、《家里的小明》、《课堂上的小明》等等。这个训练过程就让大模型在不断变化增大的“字词”空间中,不断重新计算“小明”与“体育场”、“家”、“课堂”……的相关性,从而形成更多的参数。可见,参数的数量就代表了大模型对“小明”认知的精确度。

        一方面,大模型的开发者在训练过程中会通过更多的资料,用各种办法让参数所体现出来的相关性更加贴近真实。如果我们把“小明”从出生到现在的一切资料都告诉大模型,那么大模型对“小明”的把握就更加精细,能够回答你任何关于小明的问题。

        另一方面,在训练过程中,如果大模型关于“小明”的回答错误了,模型训练者可以通过奖励机制,告诉大模型什么理解是对的,什么是错的。大模型则用数学公式反向推导重新计算修改参数中的数值,直到回答正确率达标。

        最终,这些参数形成了大模型的知识库。可以想象,这个知识库是极其庞大的。我们看到的大模型后面带的xxb,就是表示该大模型参数的数量。参数越多,意味着知识库越大,AI当然也就越“聪明”。

        例如: 我们俗称的DeepSeek满血版是671B,代表它有6710亿个参数。参数越多,意味着大模型能更精细地调整它对每个字词的理解,比如“小明”在“家里”和“课堂上”之间的微妙差异。反之,大模型可能无法区分“小明”在“家里”和“课堂上”之间差异,导致你问“小明在课堂上表现如何?”时,大模型可能会回答“他喜欢睡懒觉”。

3)注意力权重

        注意力权重可以类比于人类的“意图”,它像一台“自动聚光灯”,通过数学计算决定哪些参数(知识)在当前问题中最重要。类似于我们写命题作文时的“审题”,要判断出题人的“意图”是什么,要求的文体是什么,之后再在脑子里思考我应该用哪些“知识”,采用“文法”,运用哪些“字词”来尽量满足出题者的“意图”,从而拿到高分。

        例如,用户问了两个问题:

问题1:“我在产品发布会上看到了一个红色的苹果,你能介绍一下它吗?”

问题2:“我在山东日照看到了一个红色的苹果,你能介绍一下它吗?”

        在这两个问题中,关键词都是“介绍”“红苹果”。

        但是,大模型会通过“注意力权重”来当分析用户意图。在第一个问题中,经过注意力权重计算,大模型注意到第一个问题中提到了“产品发布会”,因此判断用户所说的“苹果”似乎不是水果,而是手机;而第二个问题的中提到了著名的苹果产地“山东日照”,因此判断用户所说的“苹果”应该不是手机,而是水果。

        于是,在第一个问题中,注意力权重会调整加强“苹果”与“手机”的关联度,将把注意力的权重偏向“手机”,从而在后续的计算中,将“苹果”与“手机”相关的参数引入计算,进而给出红色苹果手机的产品参数介绍;

        而在第二个问题中,注意力权重会会调整加强“苹果”与“水果”的关联度,将注意力的权重转向“水果”,从而在后续的计算中,将“苹果”与“水果”相关的参数引入计算更,进而给出山东红富士苹果的产品介绍。

        可见,注意力权重模块是大模型识别用户意图并引导采用正确的知识(参数)来回复客户的关键。

4)总结:大模型变聪明的秘密

        大模型之所以会显得聪明,是因为:

首先:因为它通过向量掌握了大量的“字词”,它们被“嵌入”到大模型中,它可以随时用适合的“字词”精准的表达。

其次:它通过巨大的参数库学习和存储了了海量的人类知识,从古代到现代,横贯各个学科,是一个超级百科全书,因此它可以回答任何一个人类已经掌握的知识。

最后:它通过注意力权重判断人类问题的意图,选择最适合的知识库来进行针对性的回答。

        因此在用户看来,大模型可以回答任何类型的问题(这是因为它学习了足够多的知识,即参数足够多),它也可以根据用户的不同问题给出不同的答案(这是因为它会判断用户意图,通过注意力权重选择不同的知识,即参数来回答),显得无所不能。

五、AI会创造吗?

        如果一直看到这里并且都看懂了,那么你就会很容易得出答案:

  1. 大模型其实并不会发明创造人类从未认知过的知识,例如新的数学公式和物理定律。
  2. 所谓大模型的自主创作,实际上是通过概率来组合人类已有的旧知识生成新的表达。

        例如,虽然训练数据中没有“用古文写现代科幻故事”的例子,但它能从古文中学习“文法”,从现代科幻故事中学习“情节”,再通过概率拼接生成新的文本。它也可以使用人类已经发明的数学公式和运算规则去解决人类从未做过的一道数学题。

第三层: 写给大学生的建议

        在本文第一层和第二层中,我对生成式AI的工作原理进行了通俗化的解释。这种通俗化的解释有助于对大模型一无所知的人的认知从第一层、第二层到第三层的逐步深入。

        然而在第三层,读者应当带着已经建立的认知框架从通俗转向专业,在保持原认知框架构不变的情况下,对应到真实的专业架构上。 这将有助于你快速进入到复杂的大模型架构和原理中。

        鉴于网络上已经有非常多的大模型专业科普文章,我就不献丑了。如果我在第一层和第二层为你搭建的认知框架能够帮助你更加轻松地走进大模型这一前沿科技,那么此文就善莫大焉了。

        恭祝各位能早日认识大模型,拥抱大模型,紧跟大模型带来的时代革命。


我对AI的探索不会停歇,欢迎关注、收藏、转发,与我一起拥抱AI。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值