简单学点大模型-环境影响

11.1 大模型对环境的影响

一、生产

  • 原材料提取:提取矿石以及转化为金属的所有过程
  • 制造:包括制造设备的所有过程
  • 运输:设备运输过程

对环境影响示例:

  1. 法国仅使用CPU的数据中心:40%的温室气体排放源于生产阶段(全球变暖)
  2. 设备制造排放量占iPhone 5总排放量的75%(全球变暖)
  3. 用于制造电子设备的矿物(锂、钴)为不可再生资源(非生物资源枯竭
  4. 芯片制造在制造过程中产生有毒废料(对人类的危害

二、使用:设备的实际能耗,主要取决于能源(煤炭或水电)的碳强度(使用每千瓦时能源排放的碳量)

对环境影响示例:

1、数据中心使用水进行冷却(消耗淡水资源

2、发电是数据中心第二大用水需求,处理水和废水需要电力(消耗电力

  • 2018年,全球数据中心用电量为2050亿千瓦时(占总用电量的 1%)
  • 在美国,2014年数据中心用电量占总用电量的1.8%。

3、超参数搜索是语言模型相关碳排放的重要来源(全球变暖)

三、寿命终止:拆除、回收/处置设备

对环境影响实例:80%的电子设备未被正式回收,释放到环境中(空气、水、土壤)的化学物质, 可导致癌症等(对人类的危害)

在整个过程,

  • 化石燃料(煤、天然气)产生的排放量最多(来自直接排放)e.g.美国温室气体排放总量的0.5%来自于数据中心
  • 如果考虑到整个生命周期(发电厂建设、采矿、废物管理),其他绿色能源(太阳能、风能)也会产生排放
  • 在魁北克运行同样的任务(水电)的排放量将比爱沙尼亚(煤炭)少30倍

11.2 估算训练模型的排放量

11.2.1 ML CO2 Impact Calculator

Machine Learning CO2 Impact Calculator提供了⼀种基于硬件、使用的小时数、供应商和地区来估计排放量的简单方法。

有关ML模型训练的详细信息作为输入:服务器的地理区域、GPU的类型和训练时间,并将产生的CO2eq的大致量作为输出。

该方法收集了该计算的4个主要变量的公开可用数据:(i)硬件的能耗,(ii)提供商计算区域的位置——我们假设该区域连接到其本地电网,(iii)该区域每千瓦时的二氧化碳排放量,以及(iv)提供商购买的潜在补偿。 作者打算采取一种公开透明的方法:使用的数据是公开的、有争议的,并且可以通过Github问题和拉取请求进行编辑。因此,随着更多信息的提供,对更新数据持开放态度。

为了量化碳排放,使用了二氧化碳排放当量CO2-equivalents(CO2eq),表示人类生产和消费活动过程中排放的温室气体总排放量。这是一种标准化的衡量标准,用于将各种温室气体的全球变暖潜力表示为单个数字,即具有同等全球变暖影响的二氧化碳量。

实际上,很难准确估计给定位置的云服务器排放的二氧化碳当量,因为它所连接的电网的信息很少公开。然而,如果我们假设所有服务器都在其物理位置连接到本地电网,我们就可以使用公共数据源估计它们排放的二氧化碳当量。因此,为了创建这个排放计算器,作者收集了不同网格位置的二氧化碳排放数据,并将其与三大云提供商(谷歌云平台、微软Azure和亚马逊网络服务)的已知GPU服务器位置进行了交叉引用,以说明排放当量根据给定服务器的位置存在的可变性程度。

神经网络训练系统排放碳的另一个更微妙的因素是模型所使用的计算基础设施和训练时间。在性能方面,GPU 的每秒浮点运算(FLOPS)的数量近年来一直在稳步增加,从2004年的每秒100Giga FLOPS 增加到最近硬件中的每秒15 Tera FLOPS 。然而,随着神经网络体系结构变得越来越深入和复杂,最近最先进的模型经常在多个 GPU 上训练数周(或数月) ,以超过基准性能,这需要越来越多的能量。

11.2.2 Energy and Policy Considerations for Deep Learning in NLP

这是第⼀篇真正激发NLP社区对环境影响认识的论文。

p_{CPU}: CPU的平均功率(W)

p_{GPU}: GPU的平均功率(W)

p_{DRAM}: DRAM的平均功率(W)

PUE(用电效率):提供给数据中心的总功率/IT设备消耗的功率

根据计算方法,

  • 1名乘客乘坐从纽约到旧金山的往返航班:1984 lbs CO2eq (0.9吨)
  • 汽车生命周期:126,000 lbs CO2eq
  • BERT-base(110M参数):1438 lbs CO2eq
  • 神经结构搜索(213M参数)以获得Evolved Transformer:626155 lbs CO2eq

由此可以直观地看出语言模型碳排放的影响程度。

11.2.3 Carbon Emissions and Large Neural Network Training

根据计算方法,

  • T5:86 MWh,47t CO2eq
  • GShard(用于机器翻译的MOE模型):24 MWh,4.3t CO2eq
  • Switch Transformer:179 MWh,59t CO2eq
  • GPT-3:1287 MWh,552t CO2eq

该方法对上一篇论文的方法进行了部分的反驳,

  • 对于搜索小任务,18.7x太高 
  • 神经结构搜索只需一次,然后每个人都可以使用Evolved Transformer
  • 排放量被高估了88倍

11.3 缓解措施

1、明智地选择云提供商

近年来,许多云提供商制定了雄心勃勃的可持续发展目标,并通过可再生能源证书(REC)抵消其排放,以努力达成碳中和的目标。购买的每个REC都证明1 MWh的可再生能源已添加到能源网中,可用于抵消等量的不可再生能源。

服务器安装的另一个主要能耗因素是GPU所在中心的功率使用效率(PUE),它代表用于冷却、功率转换和其他辅助任务的能耗百分比,并且可能变化很大。

最后,如果依赖于当地的私人计算基础设施,还可以与管理员就量化和抵消产生的排放以及提高电网效率进行接洽——这可能有助于实现碳中和,并在规模上产生重大影响。

2、正确选择数据中心位置

虽然许多云提供商都是碳中和的的,但由于他们连接的本地电网,他们的一些数据中心可能仍然是碳密集型的,而其他数据中心则是低碳的,仅由可再生能源供电。因此,选择将训练算法的数据中心位置对其直接碳排放有很大影响。这种选择可以通过在分派作业之前有意识地选择服务器位置来实现。

3、减少资源浪费

网格搜索在实践中仍然经常使用,尽管它在模型性能和环境影响方面的效率都很低。然而,已经表明,随机搜索(和其他搜索)不仅是一种直接的替代品,而且有可能显着加速超参数搜索,从而减少碳排放。

4、选择更高效的硬件

计算硬件的选择也会对ML排放产生重大影响。为了在不同的设备之间进行比较,可以用FLOPS/W来估计它们的计算效率。该估计基于它们相对于热设计功率(TDP)3的理论峰值性能。使用这种方法,可以发现CPU的效率可能比GPU低10倍,而TPU 3的效率可能是GPU的4到8倍。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值