故事一说
古有曹冲称象,为人津津乐道。而“大规模分布式训练”堪称机器学习领域的的“曹冲称象”。
三国时曹操等大臣面临的问题是大象的重量超过了称的极限。如果我们把故事中的对象替换一下:
- 大象替换成类似GPT3这类的参数超万亿的大模型
- 称替换成类似GPU-A100,这类的机器学习处理器
- 重量替换成机器训练大模型所需的内存
那什么是“大规模分布式训练”呢?
翻译翻译就是:大模型预训练所需的内存超过了单张深度学习处理器的内存。于是机器学习的工程师们纷纷化身曹冲,提出肢解大模型而又不尽量影响模型运行的的方案!
比较尴尬的是, 现代工程师们找不到一只可以容纳整个模型的船(也许2077年,nvidia发布A1000或者H1000,就是我们要找的船),于是工程师只好另辟蹊径,拿多杆秤称一头象了。如何协调多杆秤工作,就是一个技术活了。
简而言之:大规模分布式训练的目标是协调多台机器简单高效的运行大规模的模型。