点击下方“JavaEdge”,选择“设为星标”
第一时间关注技术干货!
免责声明~
任何文章不要过度深思!
万事万物都经不起审视,因为世上没有同样的成长环境,也没有同样的认知水平,更「没有适用于所有人的解决方案」;
不要急着评判文章列出的观点,只需代入其中,适度审视一番自己即可,能「跳脱出来从外人的角度看看现在的自己处在什么样的阶段」才不为俗人。
怎么想、怎么做,全在乎自己「不断实践中寻找适合自己的大道」
1 不可能三角
在 Transformer 模型训练中存在一个“不可能三角”,即训练速度、模型性能(效果)和计算成本这三个要素难以同时达到最优。就如同经济学中的蒙代尔三角 ,通常只能三者取其二。例如,在机器学习模型训练场景下,需在效率、质量和成本之间进行权衡。
具体到 Transformer 训练中,其关键的自注意力机制计算复杂度高、内存占用大,导致训练时间延长、资源消耗增多,这使得在同一有限资源条件下,无法同时兼顾模型大小与准确性等诸多因素,使模型同时满足快速、高效且高性能。
2 通俗解释
训练大型模型时,我们很难做到同时“速度快、效果好、花钱少”。如追求模型性能卓越(如高准确率):
往往需要增加模型规模(参数量),这将导致训练速度减慢,且需配备更多 GPU,成本随之上升
若减少模型规模以实现快速训练、降低成本,模型性能可能会相应下滑
好比购物时,很难找到一个同时具备高质量、低价格、快速配送的商品,通常只能选其中两项。训练模型时也是如此,要在训练速度、模型精准度、成本控制这三者中做出取舍,只能保留两个,牺牲一个。
3 具体 Transformer 模型
以 BERT、GPT 等经典 Transformer 模型为例,展现了训练时资源消耗和性能表现的权衡。像 GPT-3 这样的大型模型,虽在性能上表现出色,却需要海量计算资源支持,训练成本极为高昂;而相较之下,小型模型虽在训练速度、成本上占优,但性能却不如大型模型。
4 通俗解释
4.1 装修房子
有三个目标:
速度快(训练效率高):安排10个工人同时作业,一周就可完工。
质量好(模型性能强):选用进口豪华材料,聘请国内顶尖设计师。
花钱少(计算成本低):装修预算有限,只能承担普通水平装修费用。
然而,最多只能同时满足其中两个目标:
想要又快又好 → 必然要增加预算(比如租用大量高端 GPU);
想要又好又省 → 势必会拖慢进度(比如使用小显卡慢慢训练);
想要又快又省 → 装修质量可能难以保证(比如简化模型结构,效果就会打折)。
4.2 技术解释
模型性能(质量) 若想让模型达到较高表现水平(如 GPT-4 的智能水准),通常需满足:
具备更大的参数量(可达千亿级别);
使用海量的训练数据(可能达 TB 级文本);
进行长周期的训练(或需数月计算时长)。
训练速度(效率) 要想尽快完成训练任务,常采取以下措施:
减少模型参数(但这会牺牲模型性能表现);
采用多 GPU 并行计算方式(不过这会使成本增加);
降低训练精度(例如用 FP16 代替 FP32,但可能对稳定性产生影响)。
计算成本(钱) 若要降低开支成本,往往面临以下情况:
只能使用少量 GPU 进行训练 → 导致训练速度变慢;
对模型规模进行压缩 → 模型性能表现会下滑;
缩短训练时长 → 模型可能无法充分学习。
4.3 典型案例
GPT-4:堪称性能极致的代表(处于三角的性能顶点),其训练动用了上万块 GPU,耗电量巨大堪比一个小城镇的用电量,整体成本数以亿美元计。
手机端小模型:则在省钱、省电方面占据优势(对应成本、效率两顶点),但在回答质量等诸多性能指标上与大型模型存在明显差距。
快速微调模型:是一种注重利用少量数据快速调整模型的方式(侧重于保持速度与成本优势),然而其通用能力相较于大型基础模型则弱了不少。
5 总结
这个“不可能三角”从根本上体现了资源分配的权衡抉择问题,涉及到计算资源(成本)、时间资源(速度)、智能资源(效果)三者的相互制约关系。工程师们需凭借自身智慧,在现有技术条件框架下,针对不同应用场景去探寻最佳平衡点。例如,ChatGPT 侧重优先保障效果与速度,通过商业变现途径来应对成本问题。
参考:
https://arxiv.org/pdf/2204.06130
本文已收录在Github Java-Interview-Tutorial,关注我,紧跟本系列专栏文章,咱们下篇再续!
🚀 魔都架构师 | 全网30W+技术追随者
🔧 大厂分布式系统/数据中台实战专家
🏆 主导交易系统亿级流量调优 & 车联网平台架构
🧠 AIGC应用开发先行者 | 区块链落地实践者
🌍 以技术驱动创新,我们的征途是改变世界!
👉 实战干货:编程严选网
关注我,紧跟本系列专栏文章,咱们下篇再续!
写在最后
编程严选网:
http://www.javaedge.cn/
专注分享软件开发全场景最佳实践,点击文末【阅读原文】即可直达~
【编程严选】星球