DeepSeek刚火就要垮掉了吗?通俗的AI科普!15分钟搞懂国产Ai是如何实现弯道超车的!

DeepSeek刚火就要垮掉了吗?关于DeepSeek通俗的AI科普!15分钟搞懂国产Ai是如何实现弯道超車的!

说话人 1 00:00

最近中国的 AI 黑马 Deep Seek 可把咱国人给嗨翻了。有人说他搞崩了美国的股市,彻底实现了弯道超车。不过也有人表示不屑,说他不过是个抄袭骗局,吹的再高也会一拍一即散,根本不值一提。网络上的声音非常两极分化,要么是吹的天花乱坠,要么是嗤之以鼻。

说话人 1 00:19

话说聊 AI 那么高大上的东西,要是不搞清楚原理就瞎说,那肯定是耍流氓。可是如得太学术吧,又会让人觉得晦涩难懂,那 Deep Seek 到底是真厉害还是被夸大?咱们今天就用最通俗易懂的语言把它一次说透。首先要想聊明白 AI, 咱们还得先搞懂大语言模型这玩意。这么说,当今市面上几乎所有的大语言模型,像是什么 OpenAI 的ChatGPT,谷歌的Gemini, Meta 的LLaMA,百度的文心一言,华为了盘古,还有咱们今天要说的 Deep Seek。他们都来自同一个核心结构,名叫 Transformer, 就是变形金刚的英文。

说话人 1 00:57

Transformer 这个概念源自2017年的,来自谷歌团队的一篇神论文 attention is all you need。它的第一作者是一位印度语科学家,名叫Ashish Vaswani. Transformer,最主要的原理名叫 Self- Attention。

说话人 1 01:10

自注意力机制会先挑出一句话里最关键的词,再算算它们之间的关联,最后再算出来整句话再说啥。OK,我知道大家可能已经听不下去了,我们下面开始说人话,假设有一句话,猫坐在垫子上它很舒服,这里的它指的是谁?对于咱们人类而言很容易知道,那就是猫,可对于 AI 来说,却曾经是一个千古难题。因为他根本就不理解,那要怎么让 AI 明白,到底是猫很舒服还是垫子很舒服呢?其实在这段话里出现了不少概念,有猫、垫子、坐上塌、舒服等等。要想让 AI 区分他们,就得先给每个词都贴上性格标签。

说话人 1 01:51

那什么是性格标签呢?咱们先拿人来打个比方,大家想象一下,每个人都有不同性格特征,对吧?可怎么表示能让计算机区分不同性格的人呢?毕竟计算机只能看懂数字,于是咱们就给计算机做一个简单的数字图表,比如内向这一维度,- 1 是最内向, 0 是中间,而一是最外向,以此类推。还有善良、幽默、直率等等。性格小明很外向, 0.8 比较善良, 0.6 有一点幽默,0.3。而老王性格有点内向,是-0.2,但是他很幽默,是0.7,而且很直率0.8。

说话人 1 02:28

那么这样我们就可以通过一组数字标签被称作数值向量,让计算机区分小明和老王谁是谁,毕竟计算机只认数字不认人。同样,那在 Transformer 处理语言的时候,他也要给每个英文单词或是汉字配上性格标签,也就是刚才说的数值向量。那么咱们再来看刚才句子里出现的那些词汇,猫是动物,0.9,它不是物品,- 0.8 有点感情, 0.6 体积不算大, 0.3 垫子,它不是动物-0.9,它是物品 0.8 几乎没有情感0.1,它的动物属性是0.5,物品属性0.2,情感0。那么有了这些所谓的数字,也就是数值向量, AI 就可以知道猫和狗比较接近,跟电子差的有点远,还能明白猫多少有点情感,电子几乎没有情感而舒服,这种情感词汇更可能说的是猫而不是电子。于是这么一个计算机听不懂人话的千古难题就被这么一堆数字的比对算法给解决了,让 AI 慢慢的具备了理解我们的能力。当然,所谓的理解这种拟人化的说法也只是个比喻,实际上模型并没有自我意识,而是通过无数次的训练迭代更新参数,逐渐学会了在向量空间中表示猫电子等概念的差异。

说话人 1 03:46

说人话就是AI,仅仅理解一个单词就得需要大量的计算,那如果要是一句话、一段话或是一整篇文章,那不就得需要指数级增长的海量计算吗?那么就到了下一步模型训练,大致我把它总结为 4 个步骤,第一步就是给所有的单词自动编码,前面咱们已经提到了计算机,它只认数字,不理解文字,于是 AI 先把所有的单词转换成一组数值,嵌入向量。那么这些向量并不是人类人工定好的,而是 AI 通过大规模的文本学习对比后算出来的。

说话人 1 04:20

在这个学习的过程中, AI 可能会看到很多关于猫的句子。比如猫喜欢吃鱼,猫和狗都是宠物,于是 AI 发现猫和狗经常出现在类似的句子里,那它们可能具有相似的向量,猫和鱼也会经常的出现在一起,那他们俩之间一定有某种特殊的联系。那么再说第二步,通过填空游戏进行自监督学习。在这里我必须强调 AI 没有老师告诉他每个单词的含义,而是自己通过填空游戏来学习。那么训练 AI 的时候, AI 它会在海量文本上做完形填空题,比如训练数据猫在什么什么上面睡觉, AI 可。可能会预测沙发、床垫子概率比较高,而微波炉、冰箱概率比较低。但如果我们假设每次 AI 猜错,它就会根据误差调整内部的向量,也就是那个词的标签数字,让下一次的预测更加的精准。就这么反反复复,不断考试,不断改错, AI 一点点学会了人类语言的基本规律。

说话人 1 05:20

那么再说到第三步,自注意力机制,也就是开头提到那篇神论文 attention is all you need 的核心, self-attention 能让 AI 自动找出句子中最相关的单词,也就是我们刚才举的那个例子,它指代的是谁?句子里的重点是在讲什么?猫在垫子上睡觉,它很舒服, AI 计算出来的注意力可能会是。它是电子的相关性0.4,它是猫的相关性0.9。就这样, AI 不仅学会了单词的意思,还理解了词句子与句子之间的逻辑关系。

说话人 1 05:51

那么再到第四步就是反复训练加参数调整,把上述的填空题和 self-attention 注意力的步骤在海量的数据上循环的进行上百万乃至于上亿次的训练,每次迭代 AI 都会更新参数,慢慢形成更准确的理解和推理能力。最终 AI 学会了生成文章,学会了回答人类的问题,甚至推断语境做推理,看起来像是能听懂了人话,可其实他只是在做算术。

说话人 1 06:21

那说到算数啊,大家一定想问了,训练一个像 GPT4 这个级别的大语言模型到底需要多少次计算呢?在 AI 训练里通常用Flops,也就是浮点运算次数来衡量计算量。比如一次简单的 1.2 乘以 3.4 = 4.08 这么一个算术题,就算一个 flop OpenAI 上一代的产品 GPT 3 的训练的计算次数,就是一个恐怖的天文数字。大约一共是 1, 750 亿个参数,用了 3.14 乘以 10 的 23 次方的flop,也就是 3, 140 万亿次浮点运算。相当于一台当时的顶级 GBU A100 以每秒 312 万亿次浮点运算的速度连续运行了 355 年,或者是用 3, 640 台 A110 起跑一个月的时间,那么据说 GPT 3 在他的训练中一共看了大约 5, 000 亿个单词,并且预测了 10 万亿个token,也就是做了 10 万亿次完形填空题来学习语言。那么至于 GPT 4,有传闻说它的规模比 GPT 三还要再大 5 ~ 10 倍,因此所需的计算量也会更大。它可能使用了 8, 000 张 A100 GPU,连续跑了约 90 天。

说话人 1 07:33

那么说到这里,咱们铺垫了那么长,相信大家已经有了大致的概念,那么下面咱们终于要说到中国的 Deep Seek 了。由于美国对中国的高端芯片制裁,顶尖的 GPU 比如 H100 肯定是不会卖给中国,当然我这里指的是合法途径,于是英伟达给中国市场提供了一个专用芯片,叫做H800,就是 H100 的中国市场阉割版。虽然这个阉割版被降了平,但它依然是和 H100 同代的先进架构,它的性能大概是 H100 的 60% 到77%,也就是 1.3 到 1.6 倍的差距。但是这个阉割版依然要比之前用于训练 GPT4的 A100 版要更强。

说话人 1 08:15

另外从价格方面来讲,据说 H800 在中国的报价为 21 万元人民币,而 H100 大约是 25 万元,也就是说 H800 的性能比 H100 慢了23%,但它的价格却比 H100 又便宜了16%。那么这么一算下来,如果用相同的预算多买几张H800,得到的总算力只比买 H100 少了8%。

说话人 1 08:39

因此,尽管有制裁,但对于中国国内大模型训练的影响也未必像大家想象中的那么致命。所以,当 Deep Seek 宣称它能够在中国受限的芯片环境下完成与 GPT 4 相当的训练规模,并称这是创造奇迹的时候,也就未必是那么回事了。那么下面咱们就要聊到今天的重头戏, Deep Seek 是如何用 550 万的预算达到1亿美元的 GPT 的效果的,答案就是模型蒸馏技术。前面我们一直反复强调AI,一开始他并没有老师手把手的告诉他每个单词的含义,可在模型蒸馏里, Deep Seek 却找到了老师,而这位老师据传正是已经训练成熟的ChatGPT。那到底是怎么教的呢?咱们还用刚才的例子举例来说,猫坐在垫子上,它很舒服。

说话人 1 09:31

那么 Deep Seek 学习的步骤如下,第一步,输入数据给 GPT, 也就是教师模型。那么 Deep Seek 把这句话输入给 GPT, 是一个已经经过海量数据训练的大师了,理解语言非常的准确。第二步, GPT 生成输出软标签。GPT 分析完了之后可能会给出一个这样的概率分布,比如它可能输出它指的是猫的概率是85%,它指的是电子的概率是15%、他不仅告诉了 Deep Seek正确的答案是猫,还能让 Deep Seek 知道 GPT 在判断时的细节和关联度。那么下面就到了第三步,记录老师的思考过程。除了最终答案, Deep Seek 还可能获取在中间层的一些其他信息,比如刚才说的注意力分数、隐藏状态等等,就像是获得了老师的心得笔记,那么接下来也就是最后一步,获得老师的心得笔记之后, Deep Seek 就不需要从零开始琢磨每一个词之间的关系,而是直接学习老师的经验,反复的学习这些软标签后, Deep Seek 大大缩短的训练时间,节省了大量的算力,并且最终可以输出与 GPT 4 相近的结果。

说话人 1 10:39

那么上述的过程就叫模型蒸馏,用大模型,当老师把知识蒸馏到自己的小模型里,最终 Deep Seek 可以比老师更快的给出靠谱的答案,且训练的成本也比老师大大的降低。说到这里,大家也可能想问了, Deep Seek 又是如何获得 GPT 输出的软标签的呢?这属不属于偷窃呢?从明面上说, Deep Seek 使用的方法大多是通过合法公开的 API 接口来调用 GPT 的服务,就像你平时在网页上使用嵌的 GPT 一样,只不过它调用的规模要更大一些。

说话人 1 11:16

当然我这里说的是在合法使用 API 的前提下,只要它是遵守了用户条款,不违规不滥用,它就不算偷窃。但至于 Deep Seek 它究竟有没有完全的遵守条款,有没有违规滥用,这就不是我今天能判断的,而是要看 ChatGPT 未来如何界定这个问题了。

说话人 1 11:34

不过即便如此, Deep Seek还是得付出不少的接口调用费,买那么多的数据来训练自己的模型,成本其实并不低,但是对于那些有资金有项目需求的团队而言,这种规模的付费调用比从0训练一个上亿美元级别的大模型还是便宜太多了。那么从道德层面上, Deep Seek 的这种做法有没有什么道德瑕疵呢?的确,从商业竞争角度来看,一家团队用极少的成本直接利用别家大模型推理的结果来训练自己的模型,等于是享受别人努力的成果,这太投机取巧。当然,也有人会认为,如果是付费取得的,没有违法使用条款,那就是合理合法,谁叫你自己没看住啦?对于这个问题,我的理解是这样的,如果一个规则不能保护付出更多努力的创新者,那他就不能称得上是一个合理的规则。什么意思呢?咱们假设有两个学生,小美和小华,他们的目标都是学习英语,小美选择从零开始系统的学英语,从语法、词汇到听说读写,全面训练,投入了大量的时间、精力和金钱。最终他通过了雅思考试,取得了高分,成为了一个编写题库和总结解题技巧的老师,并且开始以卖题库为生。

说话人 1 12:49

而另一个学生小华选择直接买小美编写的考试题库,天天在家刷,从而掌握了考试中可能会出现的关键考点和解题技巧,在更短的时间里通过了雅思考试,拿到了接近小美老师的成绩。那么如果故事只说到这里,其实一点问题都没有,可是小华巧妙地凭借与小美老师成绩相当的名声,小华也开始卖题库了,而且价格只有小美老师的几 1/ 10,最后投入最多成本的小美老师被市场活活卷死,是血本无归。而后来者居上的蒸馏技术出来的那些小模型却赚的是盆满钵满。

说话人 1 13:31

你的确可以夸赞小华聪明、勤奋,还有点小聪明,可是大家不觉得这整件事是不是有点什么不对劲的地方? 996 的精神卷死西方创新,曾经意大利是世界文明的皮鞋之都,可当中国的温州人学会了做皮鞋以后,硬是把意大利的这整个行业给覆灭了。过去光伏发电产业最早是美国和德国先起步的,后来中国人一入场直接卷成白菜价,几乎抱怨了整个全球市场。起初欧洲、以色列和美国都在无人机技术上取得了重大突破,可当无人机技术一开源之后,中国的品牌大疆迅速崛起,成为了消费级市场的龙头老大。造机器人的波顺动力公司从上世纪 80 年代就开始研究机器人,辛辛苦苦快 50 年,至今尚未盈利。虽然他们去年终于开售他们的 SPA dog,定价 75, 000 美元,但中国的羽术公司一出厂,依托开源技术推出了go1机械狗,且售价只有 2, 700 ~ 3, 500 美元之间,差不多是 SPA dog 价格的 1/ 30。现在已经开始在疯狂的抢占市场,波斯顿动力的未来岌岌可危。

说话人 1 14:45

那再说到今天的 Deep Seek,更是徒弟偷师以后干掉老师傅的经典节奏。咱们看 OpenAI 训练的 ChatGPT, 操资几十上百亿美金,它最好的模型 GPT o1 要价200美金一个月而550万起家的 Deep Seek-R1 好像只要100元人民币一个月,比 ChatGPT 便宜了十几倍。

说话人 1 15:06

总之,徒弟偷学了本领,饿死会创新老师傅的故事在咱们今天这个地球上是不断的在上演,他们的套路就是先免费搭便车,削弱创新者的动力,再通过价格战,用劣币驱逐良币,来彻底干掉创新、勤劳、智慧的中国人。要是再这么一直卷下去,整个人类的科技进步恐怕都将要进入冰河世纪。你要知道我们的廉价是通过“勤劳”产生的,好了,不说了,我要为我那3000块巨款工资去加班了。

说话人 1 15:37

最后的最后,或许我们在为世界的高价格重磅一击,这可能是好事,记住,我说的是可能是好事,因为我们不知道他真正的成本究竟需要多少?是高利润出售还是适当利润推售相信自己自身团队才知道。如果是高利润暴利推行那我们的低价无疑是必须的更是推动市场以及科研进步的良剂,但如果是适当利润甚至薄利推行,那么我们的无疑会遏制进步,更有可能遏制先进科学的开源,毕竟人家科技等方面真的是领先于世界的更别说我们了,如何失去这些机会,我们只会更难,只会再次陷入闭门造车的处境,那么一切都会被拿捏。有人可能并不认同,但是举个简单的例子,光刻机,芯片,当然这个人家并没有开源,可是在这上面我们闭门造车花费了多少时间,精力和财力了。以后全部封锁起来,我们的又能有多少时间,精力和财力去应对每一个创新领域了。

说话人 1 16:35

我们很多都是在靠千千万万的普通人的时间和低廉的劳动力创造的,这真的是引以为傲吗?什么是幸福感?是月月无休,是一天工作10个小时,还是一个月可怜巴巴的3000块?现如今的低成本无非是建立在民众自身罢了。反观那些所谓的高成本为何不能低成本。举个例子,房地产,纵观世界各个发达国家房地产泡沫化带来的影响,哪一个不是先例,不说国外就说说我们自己香港澳门地区的房地产泡沫,哪一个不是泡沫,普通老百姓为此生活在水生火热之中。这些高价的为什么不能实现低价,更何况这有诸多的前车之鉴了,为什么不,难道这是发展过程中的必经之路吗?可笑!

说话人 1 17:20

无论是低价还是高价,当大面积推广给大众的时候,你只要和经济联系起来你就明白了比如某某AI的概念股票,某某母公司,一切都是经济手段,而不是民生保障。

说话人 1 17:33

不能再说了,说得太多了,有一句诗词 “钟鼓馔玉不足贵,但愿长醉不复醒。”也永远无法叫醒装睡的人,我也想做一个装睡的人,奈何口袋空空要卖苦力卖时间来维持生计。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值