目录
为什么近两年AI突然爆火出圈?
根本原因还是因为OpenAI-ChatGPT3.5的诞生,被一些人认为产生了涌现现象或通过了图灵测试,注意这两个观点并不被所有人认可。但在ChatGPT3.5诞生之前,人类究竟能不能实现通用人工智能还是一头雾水里打转,虽然成败尚未可知,但ChatGPT3.5让部分学者和专家看到了希望。
什么是图灵测试?
- 提出人:艾伦·麦席森·图灵(被誉为:计算机科学和人工智能之父)
- 理念:图灵预测称,到2000年,人类应该可以用10GB的计算机设备,制造出可以骗过30%成年人的人工智能。
- 提出时间:1950年
- 测试方法
- 被测试人,和一个待测试的机器。测试时,测试人与被测试人是分开的,测试人只有以纯文本的方式向被测试人问一些问题,这些问题随便是什么问题都可以。问过一些问题后,如果测试人能够正确地分出谁是人谁是机器,那机器就没有通过图灵测试,如果测试人没有分出谁是机器谁是人,那这个机器就是有智能的
什么是涌现现象?
- 涌现现象:当一个系统中的多个简单个体相互作用时,会产生整体层面上的新特性或行为模式,而这些特性无法仅从单个个体的性质来解释或预测。
- 例子:
- 水分子的个体性质与水的流动性、表面张力等宏观性质
- 神经元的简单活动与意识的产生
- 蚁群中单个蚂蚁的行为与整个蚁群的智能表现
为什么GPT3.5之后其它厂商可以那么快的跟进更新
实际上GPT2是开源的,当时(GPT3.5诞生之前)竞品还有Google的多种方案(BERT,XLNet,T5),Claude的LM,百度的ERNIE等等技术。实际上再GPT3.5之前的OpenAI发展都是有迹可循的,只是OpenAI第一个把这条路走上可用,其它家竞品交流了那么久,自然可以快速跟进。
除了大语言模型,其它的AI技术值不值得关注?
- 答案:现阶段除了大语言模型,没有任何技术值得特别关注,包括多模态(当然这些技术都是有非常大价值的,但不值得特别关注,除非你涉及相关领域)。
- 原因:因为被认为可能具有涌现现象的只有大语言模型,其它的AI技术早就已经达到可用水平,如果真这么有价值,为什么以前没有出圈?(当然这些AI技术都很有用,包括Google和字节跳动基本是依靠广告推荐算法才能有今天的地位)但这些之前没有出圈是有道理的,因为不值得出圈。
- 多模态:多模态的图片和视频理解能力,是先通过其它AI算法对图片和时间线打标转化为大语言模型可以理解的向量再喂给大语言模型,最后输出的。
- 图像生成(图片和视频)
- 图像生成今天基本是基于扩散模型生成,图片的数据打标是确定和固定的(今天看起来好像不确定是因为融合了其它技术导致的,包括使用了大语言模型来处理自然语言到图片和图像生成提示词)(注意通常使用的是CLIP等技术,我只是怀疑部分商业产品使用了大语言模型)
- 2020年,同样由OpenAI发布的DALL-E前身DDPM论文奠定了今天图像生成模型的基调。
- 音频生成
- 目前的AI生成音频是从70年代一路发展下来的,没有像图像和大语言模型一样的跨越式进步和转折点。
- 视频(图片)处理
- 2014年开始基于CNN,GAN等技术的图像修复和处理技术开始展露头脚。
- 其它
- 实际上AI(机器学习领域),的技术都是从上个世纪稳步发展到今天的,除了LLM均没有发生过跳跃式的进步,理论上LLM的发展也没有跨越式进步,但效果发生了跨越式进步,即被认为产生了涌现现象。
你需要学习如何使用大语言模型么?
- 作为非技术人员的答案:不需要(我说的是不需要学,并不是不需要用)
- 你需要学习Prompt工程么:不需要
- 你需要学习什么:如何更高效的沟通,这不只对大模型有效,对人与人也有效
- 原因:如果使用大语言模型需要学习Prompt,那大语言模型就没有出圈的价值
- 为什么有一些卖课人会交Prompt工程:因为基于扩散模型的图片生成,确实需要规范化的Prompt才可以生成预期的图像,因为扩散模型接收的Prompt是固定的,如果你使用的图像生成技术可以理解自然语义,一定是经过了其它技术处理。而大语言模型本身就是理解自然语义的,这完全是不同的概念。
你需要微调大语言模型么?
简单固定模式商业场景基本不太需要,有些人会把大语言模型调教成固定输入输出,再拿测试集去测,纯属没事找事,或许写个if else成本更低更高效且不会出错。
我并不是否定微调,只是希望有些人不要把简单的事情复杂化。当然微调大模型对技术打工人是绝对的福利,又有一个高大上的东西可以骗傻老板了。有些if else可以解决的问题,可以动用几百上千甚至几十万的资金去做了,yes。
大语言模型有记忆么?
没有,大语言模型本身不具备任何记忆,因为你运行的二进制文件数据没有任何改变,你使用的开源或商业产品有记忆,是因为每一次都由传统代码把完整的上下文喂给了大模型。如果你发现某种智能产品基于大语言模型但好像越来越懂你,别误会,是传统代码再收集的隐私数据而已。
运行满血的大语言模型到底需要什么设备?
大模型的多少B究竟是什么意思?
1.5B, 7B, 14B, 32B, 70B, 671B指的是大模型拥有多少个“参数”,B指的是Billion十亿, 而不是计算机领域常用的Byte。
什么是参数?
参数代表着如何控制神经网络工作的参数量。
运行大语言模型需要多少内存(显存)
一般来说(大约需要)
10Billion的模型满血运行大约需要40GByte存储(BF32/FP32),float16要20GByte,int4大约要5Byte
实际上你只需看模型占用了多少硬盘,如果没有经过压缩处理的话,它大概满血运行至少也需要这么大的显存(内存)
量化
BF16/FP16,BF32/FP32,INT8,INT4等是计算机中的常用概念,是表示一个数值的基础数据结构,当然BF是为了机器学习优化过的浮点数表示结构。
本质上每一个参数都是几个数值(权重,激活值和训练时的梯度值),你把一个数值按照同比缩放到更小的结构上,会出现小数位丢失,整体的参数可控比例范围也会变小。
把float32量化为int8,相当于把模型的可控参数的细节缩小了四万倍左右,但实际上参数并不会使用那么精细的位数,且小精度对模型的影响也有限。
一般量化中说的性能损失,指的是效果损失而非计算性能
究竟需要什么设备?
理论上你依靠一个古董64位CPU+一块3TB硬盘就可以在效果上满血运行DeepSeek-R1了
实际上,这是一个计算瓶颈问题和专用计算的问题
CPU和GPU和NPU
目前机器学习核心生态是围绕着GPU打造的(NPU只是在功耗设计上比GPU强,在计算上没有什么替代GPU的根本性原因)。而GPU和显存是显卡设计上的内部带宽,而GPU和内存的链接则需要经过PCIE,主板甚至CPU通道的交互限制,效果肯定是不如显存的。
CPU可以模拟任何专用计算
所有人类可以想象出来的算法都可以使用CPU进行计算,CPU可以完成显卡和量子计算系统的一切工作,只是速度远远不如专用芯片的效果而已。
计算瓶颈在哪里?
这并不是一个AI的专属概念,实际上钻研打游戏的人也明白。
一个东西的性能取决于所有需要使用的硬件的最短板性能。
即游戏帧数受限于CPU,GPU,内存频率,显存频率甚至硬盘读取率中最早打满的那一个。
AI同理,你的运行速度取决于计算性能和存储读取性能那个先遇到瓶颈
除了量化以外,任何优化都逃不开使用的存储大小
最近看到一些营销号说什么一块24GB 4090满血运行R1,实际上剩下的存储使用了内存,我没有深究也没有去看清华的那篇论文,但我猜测是在显存命中率上做了优化。(好像是二百多G内存吧,是在INT4下运行的,可以说是丐中丐,而非满血)
抛开token吐字速度,你只需要把一块3T的硬盘想办法设置为虚拟内存或虚拟显存,你就可以满血运行R1了,但这时性能会受到硬盘读写瓶颈的影响。相当于你把大脑放在了速度慢的硬盘上。