本月早些时候,OpenAI宣布构建了史上最大的AI模型GPT-3,这是一项令人惊叹的技术成就,但同时也凸显出人工智能领域一个令人担忧且有害的趋势,即现代AI模型消耗巨大的能源,且这种需求正以惊人的速度增长。自深度学习时代以来,打造顶级AI模型所需的计算资源平均每3.4个月翻一番,这意味着从2012年至2018年增长了300,000倍。GPT-3仅是这一指数级增长趋势的最新体现。当前AI已具有显著碳足迹,若行业趋势持续,其环境影响将更为严重。如果不重新审视并改革现行AI研究议程,未来人工智能可能成为对抗气候变化的阻力。

目前以深度学习为主的研究范式中,AI进步主要通过规模驱动:更大规模的数据集、更庞大的模型、更强的计算能力。然而,依赖日益增大的模型推动AI进步的问题在于,构建与部署这些模型需要消耗大量能源,从而产生大量碳排放。

2019年一项广受关注的研究显示,训练单个深度学习模型可产生高达626,155磅的CO2排放,相当于五辆汽车的终生碳足迹。相比之下,美国人均每年产生约36,156磅CO2排放。尽管该估计针对的是特别耗能的模型,但值得注意的是,当时进行分析时,GPT-2是可供研究的最大模型,被视作模型尺寸上限。仅仅一年后,相较于继任者GPT-3,GPT-2显得微不足道,尺寸缩小了约100倍。

机器学习模型为何消耗如此多能源?

首要原因是用于训练模型的数据集规模持续膨胀。2018年,BERT模型在使用包含30亿词数据集训练后实现了最佳NLP性能。XLNet基于320亿词训练集超越BERT,随后GPT-2使用了40亿词数据集进行训练。而GPT-3则使用了大约5000亿词的加权数据集,远超先前所有努力。神经网络在训练过程中对每个输入数据执行一系列复杂的数学运算(包括前向传播和反向传播),更新其参数,因此数据集越大,计算和能源需求也随之飙升。

推动AI高能耗的另一个因素是开发模型所需的广泛实验与调优。当前机器学习仍很大程度上依赖试错。实践者通常会在训练过程中构建数百个模型版本,尝试不同的神经网络架构和超参数,直至找到最优设计。上述2019年论文包含了一个典型的案例研究。研究人员选取了一个远小于GPT-3等大型模型的平均尺寸模型,不仅考察了最终版模型训练所需能量,还考虑了生成该最终版所进行的所有试验运行。

在六个月的时间里,共训练了4,789个模型版本,总计耗时9,998天GPU时间(超过27年)。考虑到所有这些运行,研究人员估计构建该模型总共产生了超过78,000磅的CO2排放,比美国成年人两年内的平均排放还要多。

至此讨论仅涉及模型训练阶段,但训练只是模型生命周期的开始。模型训练完成后,会被部署到现实世界中执行任务,这一过程称为推理,其能源消耗甚至超过训练。例如,自动驾驶车辆的AI底层神经网络首先需要在前期学习驾驶,训练完成后,在车辆投入使用期间,模型会持续进行推理以实时导航环境,日复一日,只要车辆在使用就不停止。显然,模型参数越多,持续推理所需的能源要求就越苛刻。

能源使用与碳排放关系

本主题核心假设之一是AI能源使用与其碳排放之间的关系。如何看待这种关系的最佳方式是什么?

根据EPA数据,美国每千瓦时能源消耗平均产生0.954磅CO2排放。这个平均值反映了美国电网中不同电力来源(如可再生能源、核能、天然气、煤炭)各自的碳足迹及其相对比例。Strubell的分析采用了全美平均水平,据此计算各种AI模型基于其能源需求产生的碳排放。这是一个合理的假设,因为如Amazon Web Services这样的云服务商的电源组合大致与全美平均水平相当,大多数AI模型都在云端训练。

当然,如果使用主要源自可再生能源的电力来训练AI模型,其碳足迹相应会降低。例如,Google Cloud Platform的电源组合中可再生能源占比高于AWS(分别为56%与17%)。再比如,如果模型在水电资源丰富的太平洋西北地区硬件上训练,其碳排放将低于全国平均水平。值得一提的是,所有云服务商都强调了其对碳补偿的投资。

但总体来看,采用Strubell所使用的全美平均水平来估算AI模型的碳足迹应该能够得出大致准确的结果。

边际收益递减

通过构建越来越大模型来追求AI进步的问题在于,模型尺寸与模型性能之间的关系表现为边际收益递减。数据显示,模型尺寸增加到一定程度后,对性能提升的贡献急剧下降。

以一个说明性例子来阐明这一点。ResNet是2015年发布的知名计算机视觉模型。2017年推出了其改进版本ResNeXt,训练ResNeXt比ResNet多消耗35%的计算资源(以总浮点运算量衡量),但仅提升了0.5%的准确率。

2019年来自艾伦人工智能研究所的一篇论文提供了详尽数据,记录了不同任务、模型和AI子领域中模型尺寸与边际收益递减的关系。最近发布的超级模型GPT-3与GPT-2相比,也明显显示出这种递减趋势。

如果AI界继续沿当前路径发展,为了实现越来越小的性能增量改善,将不得不投入越来越多的能源来构建更大的模型。任何成本效益分析都将愈发失衡。

鉴于边际收益递减,是什么驱使人们继续开发越来越大的模型?一个重要原因是AI社区当前对在性能基准上取得“最先进”结果的痴迷。即使提升仅为百分比的小数点后几位,构建能在知名基准上创下新准确度纪录的模型也能为研究人员赢得认可和赞誉。

UCLA教授Guy Van den Broeck对此评论道:“我认为最好的类比是某些石油富国能够建造非常高的摩天大楼。确实,建造这些大楼需要投入大量资金和工程努力,而且你会得到‘最先进的’高楼建筑技术。但是……这本身并没有科学上的进步。”

当前主导AI研究议程的“越大越好”理念威胁在未来对环境造成重大损害。需要深思熟虑、大胆变革,以引导人工智能领域走向更可持续、更具生产力的发展道路。

展望未来

首先,每位AI从业者都应考虑一些短期“快速获胜”的策略来减轻其研究的碳影响。

首要步骤是提高透明度并对此问题进行测量。当AI研究人员发布新模型成果时,除了性能和准确度指标外,还应包含模型开发过程中消耗能源的数据。

艾伦人工智能研究所团队在一篇深思熟虑的分析中提议,将浮点运算作为最通用且有用的能源效率指标供研究人员跟踪。另一组研究者创建了“机器学习排放计算器”,让从业者可以根据硬件、云服务商和地理位置等因素估算他们构建模型的碳足迹。