DataWhale组队学习-九月-Day11

写在前面

这十天的学习说真的有点累了。我一开始的时候觉得自己有这个能力坚持下去,所以没有选择组队。我现在发现我确实是需要这样一个学习小组之类的东西。。从以前我就有感觉到自己其实很早就没有那个良好的学习氛围,大学也没有找到志同道合的朋友和一起交流的学习环境。一群人确实可以走得更远,希望能认识到更加优质更加积极而非无意义的卷的团体。

大语言模型对环境的影响是什么?

气候变化

训练大语言模型所需的计算量大幅增加(从而导致二氧化碳排放)。
以下是一些数据:

  • Strubell et al., 2018估计,训练排放了626,000磅二氧化碳(5辆汽车终生的排放量)。
  • DeepMind的Gopher报告称,训练产生的二氧化碳估计为380吨。

12.1 生命周期评估

本节主要基于Ligozat et al. (2021)的论文:Unraveling the Hidden Environmental Impacts of AI Solutions for Environment Life Cycle Assessment of AI Solutions,从多个角度进行探讨语言模型/AI对气候影响的内容:

哲学角度来说,大多数关于人工智能和机器学习对环境影响的工作都集中在温室气体排放(受气候变化启发)上,但更重要的是(尽管很难)采取系统方法来思考:

  • 对环境的全面影响(排放、水足迹)
  • IT设备的整个生命周期(例如,生产、使用、寿命终止)

从**生命周期评估(LCA)**的角度来说:

生命周期分析(Life Cycle Assessment: LCA)是评价一种产品或一类设施从“摇篮到坟墓”全过程总体环境影响的手段,从区域、国家乃至全球的广度及其可持续发展的高度来观察问题。因此,运用LCA对不同产品或设施的各个替代方案进行评估,就可以选择出优化方案。
在LCA是众多定义中,以国际标准化组织(ISO)、国际环境毒理学和化学学会(SETAC)、欧洲联盟的定义最具权威。ISO定义为:汇总和评估一个产品(或服务)体系生命周期间的所有投入及产出对环境造成的和潜在的影响的方法;SETAC定义为:通过对能源、原材料消耗及污染排放的识别与量化来评估有关一个产品的过程或活动的环境负荷的客观方法
欧盟定义为:基于对产品生产过程活动从原材料获取到其最终处置的调查,定量评估产品的环境负荷的方法。
以上定义共同反映了LCA的一个核心:对产品、生产、服务“从摇篮到坟墓”的整个生命过程造成的所有环境影响的全面分析和评估。 [2]
LCA一般分为四个阶段:
1、确定分析的目的与范围
2、清单分析 (life cycle inventory,LCI)
3、影响评价
4、生命周期解释。
生命周期解释的目的是根据LCA的前几个阶段或LCI的研究发现,以透明的方式来分析结果、形成讨论、解释局限性、提出建议并报告生命周期解释的结果。生命周期解释具有系统性、重复性的特点,阶段包含3个要素:识别、评估和报告。最终根据研究目的和范围提供对LCA或LCI研究结果易于理解的、完整的和一致的说明。
生命周期分析方法是该区域与全球环境的影响比量化、对全球环境的改善起到了积极的作用,近年来温室效应越发严重。因此生命周期分析的结果,全球气候变暖指数( GWP值,二氧化碳量换算)越发重要性的世界各国所瞩目。

  • 生命周期评估(LCA)(ISO 14040和14044)为实现这一点提供了一个框架。
  • 需要“从系统的角度”来避免“一个问题的解决方案会产生几个新的、经常被忽视的问题”。

IT设备的生命周期来说:

  • 生产:
    • 原材料提取:提取矿石以及转化为金属的所有过程
    • 制造:包括制造设备的所有过程
    • 运输:设备运输过程
  • 使用:设备的实际能耗
  • 寿命终止:拆除、回收/处置设备

此时要对生命周期中的注意事项做一下说明:

  • 生产

    • 我们没有针对GPU/TPU的生命周期评估
    • 法国仅使用CPU的数据中心:40%的温室气体排放源于生产阶段(Berthoud et al. 2020
    • 数据中心的建立有很多目的,需要进行信用分配,以确定由于大型语言模型(由于情况变化很快,很难提前估计)所占的份额。
    • 示例:制造占iPhone 5总排放量的75%
  • 使用

    • 主要取决于能源(煤炭或水电)的碳强度
  • 生命的终结

    • 通常没有很好的记录
    • 80%的电子设备未被正式回收

特别地,在使用阶段:

  • 数据:需要获取、生成和存储数据

  • 学习:训练大语言模型

    • 这包括实验和超参数调整。
    • 这是“一次性成本”,直到您需要再次更新模型。
  • 推理:在生产中运行模型

    • 示例:谷歌每天收到56亿次搜索查询(来源)。

    • 通常部署的是从大模型中蒸馏出来的小得多的模型(如果特定于任务,则可以小得更多)。

    • 如果你需要进行多个预测(例如,情感、主题分类等),可以对句子进行一次编码(例如,BERT),并使用不同的任务特定的分类头。

环境影响的角度来说:

  • 温室气体排放:导致气候变化

  • 水足迹:淡水在一些地区是稀缺资源

    • 数据中心使用水进行冷却(需要电力)
    • 发电是第二大用水需求,处理水和废水需要电力
  • 对人类的危害:释放到环境中(空气、水、土壤)的化学物质,可导致癌症等。

    • 芯片制造在制造种产生有毒废料
  • 非生物资源枯竭

    • 化石燃料
    • 用于制造电子设备的矿物(锂、钴)。您可以通过此链接了解更多关于数据中心对环境的影响。

其他二阶效应(更多细节):

一阶效应与二阶效应的划分界限在于结构分析时所依据的结构是否已考虑变形。

In conservation and energy economics, the rebound effect (or take-back effect) is the reduction in expected gains from new technologies that increase the efficiency of resource use, because of behavioral or other systemic responses.
In economics, the Jevons paradox occurs when technological progress or government policy increases the efficiency with which a resource is used (reducing the amount necessary for any one use), but the falling cost of use induces increases in demand enough that resource use is increased, rather than reduced.

  • 环境变化(荒漠化加速,灭绝率上升)
  • 冻土融化反过来又加速了温室气体排放
  • 芯片短缺导致汽车制造业停工

language model ⇒ compute ⇒ energy use ⇒ greenhouse gas emissions ⇒ environmental impact \text{language model} \quad\Rightarrow\quad \text{compute} \quad\Rightarrow\quad \text{energy use} \quad\Rightarrow\quad \text{greenhouse gas emissions} \quad\Rightarrow\quad \text{environmental impact} language modelcomputeenergy usegreenhouse gas emissionsenvironmental impact

12.2 气候变化

虽然考虑整个生命周期很重要,但我们将主要关注气候变化和温室气体排放,因为这是大部分研究人工智能和机器学习对环境的影响所关注的。

气温正在上升:

  • 自1900年以来,平均表面温度增加了2.14˚F(1.19˚C)。
  • 自2005年以来,出现了10个最热年份。
  • 温度随时间增加(来源):

负面影响:

  • 自然灾害增加(极端热浪、洪水、干旱、野火)
  • 海平面上升破坏沿海社区和野生动物生态系统

原因:

  • 排放到大气中的**温室气体(二氧化碳、甲烷、一氧化二氮)锁住了太阳的热量**(过去80万年的相关性

  • 自1970年以来增长了90%(来源

  • 人类活动加速:

    • 燃烧化石燃料(煤、石油、天然气)发电、制造、运输(汽车、卡车、船舶、飞机)
    • 种植作物(肥料)
    • 砍伐森林(例如,建立农场)

碳排放量的计量单位为kg CO2 eq

  • 每种温室气体都具有全球变暖潜力(GWP):
    • 取决于(i)吸收的热量和(ii)它在大气中停留的时间。
    • 对于二氧化碳,全球升温潜能值=1(定义为参考值)。
    • 对于甲烷,100年全球升温潜能值=25。
    • 对于一氧化二氮,全球升温潜能值在100年内为300(因为它存在的时间太长了——121年)。

12.2 能源使用和温室气体排放

到目前为止,我们已经讨论了温室气体排放及其对气候变化的影响,气候变化是环境影响的一种特别突出的形式。数据中心使用能源(以电力的形式)。这是如何映射到排放量上的?答案是,这取决于电力是如何产生的。

碳强度(Carbon intensity:):使用每千瓦时能源排放的碳量来源

  • 化石燃料(煤、天然气)产生的排放量最多(来自直接排放)
  • 如果考虑到整个生命周期(发电厂建设、采矿、废物管理),其他绿色能源(太阳能、风能)也会产生排放
  • 在魁北克运行同样的任务(水电)的排放量将比爱沙尼亚(煤炭)少30倍

来自Lacoste et al. (2019)

de Chalendar et al. 2019

  • 取决于位置(那里有什么类型的发电厂)
  • 取决于时间效应(季节、一天中的时间)
  • 电力交换意味着它更难追踪,负面影响往往在其他地方
  • 加利福尼亚州main Balancing Authority(BA)40%的排放是在其他地方产生的

数据中心统计数字 (Md Abu Bakar Siddik et al., 2021):

  • 2018年,全球数据中心用电量为2050亿千瓦时(占总用电量的1%)。
  • 在美国,2014年数据中心用电量占总用电量的1.8%。
  • 30%的数据中心位于美国。
  • 美国温室气体排放总量的0.5%来自于于数据中心。
  • 好消息:从2010年到2018年,计算量增加了550%,但电力消耗仅增加了6%(由于能源效率的提高)。

12.3 估算训练模型的排放量

现在让我们试着计算训练所需的能源使用量,从而计算温室气体排放量。

12.3.1 ML CO2 Impact Calculator

ML CO2 Impact CalculatorLacoste et al., 2019)提供了一种基于硬件、使用的小时数、供应商和地区来估计排放量的简单方法。

12.3.2 Strubell et al., 2018

这是第一篇真正激发NLP社区对环境影响认识的论文。

计算功耗(kWh):

  • p cpu p_\text{cpu} pcpu:CPU的平均功率(W)
  • p gpu p_\text{gpu} pgpu:GPU的平均功率(W)
  • p dram p_\text{dram} pdram:DRAM的平均功率(W)
  • PUE \text{PUE} PUE:用电效率:提供给数据中心的总功率/IT设备消耗的功率

emissions = R power → emit PUE ( p cpu + p gpu + p dram ) \text{emissions} = R_{\text{power} \to \text{emit}} \text{PUE} (p_\text{cpu} + p_\text{gpu} + p_\text{dram}) emissions=RpoweremitPUE(pcpu+pgpu+pdram)

它们的平均值:

  • PUE = 1.58 \text{PUE}=1.58 PUE=1.58(2018年全球数据中心平均值)
  • R power → emit = 0.954 R_{\text{power} \to \text{emit}}=0.954 Rpoweremit=0.954(2018年平均排放量-磅/千瓦时)

结果

  • BERT-base(110M参数):1438 lbs CO2eq

    • NVIDIA在64个V100 GPU上训练79.2小时
  • 神经结构搜索(213M参数)以获得Evolved Transformer So et al. (2019):626155 lbs CO2eq

    • 基模型在一个TPUv2上训练需要10个小时(300K步)
    • 训练一共需要32623小时(979M步)
  • 1名乘客乘坐从纽约到旧金山的往返航班:1984 lbs CO2eq(0.9吨)

  • 汽车生命周期:126,000 lbs CO2eq

12.3.3 Patterson et al., 2021

简单形式:
emissions = R power → emit ( energy-train + queries ⋅ energy-inference ) \text{emissions} = R_{\text{power} \to \text{emit}} (\text{energy-train} + \text{queries} \cdot \text{energy-inference}) emissions=Rpoweremit(energy-train+queriesenergy-inference)

  • NVIDIA:80%的ML工作负载是推理,而不是训练

许多设计决策:

  • 模型架构:Transformer与Evolved Transformer

Google Brain-The Evolved Transformer
论文创新点:
​ 使用神经架构搜索的方法,为 seq2seq 任务找到了一种比Transformer更好的前馈网络架构。架构搜索是基于Transformer进行演进,最终得到的Evolved Transformer 的新架构在四个成熟的语言任务(WMT 2014 英德、WMT 2014 英法、WMT 2014 英捷及十亿词语言模型基准(LM1B))上的表现均优于原版 Transformer。在用大型模型进行的实验中,Evolved Transformer 的效率(FLOPS)是 Transformer 的两倍,而且质量没有损失。在更适合移动设备的小型模型(参数量为 7M)中,Evolved Transformer 的 BLEU 值高出 Transformer 0.7。

  • 处理器:NVIDIA的P100与Google的TPU
  • 数据中心:平均(1.58)与谷歌(1.11)
  • 能源供应组合(如煤炭、水电):平均(0.429千克二氧化碳/千瓦时)与谷歌(0.080千克二氧化碳/千瓦时)
    • 注:总额为0.478,净额为0.080
    • 扣除出售给其他公司的清洁能源

对于训练:

emissions = hours-to-train ⋅ num-processors ⋅ power-per-processor ⋅ PUE ⋅ R power → emit \text{emissions} = \text{hours-to-train} \cdot \text{num-processors} \cdot \text{power-per-processor} \cdot \text{PUE} \cdot R_{\text{power} \to \text{emit}} emissions=hours-to-trainnum-processorspower-per-processorPUERpoweremit

不同模型的估计值:

  • T5:86 MWh,47t CO2eq
  • GShard(用于机器翻译的MOE模型):24 MWh,4.3t CO2eq
  • Switch Transformer:179 MWh,59t CO2eq
  • GPT3:1287 MWh,552t CO2eq

反驳Strubell et al. (2019)的神经结构搜索的估计值:

  • 对于搜索小任务,18.7x太高
  • 神经结构搜索只需一次,然后每个人都可以使用Evolved Transformer
  • 排放量被高估了88倍

要点:

  • 如果可能的话,测量比在线计算更好
  • 谷歌使用了12.2t 千瓦时(训练谷歌最大的4个模型不到0.005%)
  • 这是比特币挖矿计算支出的1/10

12.4 推荐的Python包

The experiment-impact-tracker is meant to be a simple drop-in method to track energy usage, carbon emissions, and compute utilization of your system. Currently, on Linux systems with Intel chips (that support the RAPL or powergadget interfaces) and NVIDIA GPUs, we record: power draw from CPU and GPU, hardware information, python package versions, estimated carbon emissions information, etc. In California we even support realtime carbon emission information by querying caiso.com

carbontracker is a tool for tracking and predicting the energy consumption and carbon footprint of training deep learning models as described in Anthony et al. (2020).

a Python package that estimates your hardware electricity power consumption (GPU + CPU + RAM) and apply to it the carbon intensity of the region where the computing is done.

12.5 总体总结

  • 环境影响是一个巨大的话题。一切都是相互联系的,所以很难得出一个干净的定量指标。但要真正着眼于全局。

  • 尽管如今大语言模型的还很少,但它正在快速增长。

  • 大语言模型的通用性提供了节省成本的潜力(“一次性训练”并适用于许多不同的任务)。但它们的成本要高得多,需要可能需要重新训练。这里的权衡是什么?

  • 缓解措施

    • 尝试在使用清洁能源的数据中心训练模型
    • 碳抵消的效果各不相同(森林种植活动产生单一种植)
    • 更高效的模型架构、训练程序、硬件(但要注意反弹效应)
  • 在论文报告排放量

    • 可以提高认识(想象一下,如果每一篇论文都能报告排放量)
    • 调整激励(人们目前关注准确性,但碳排放也很重要!)

延申阅读

通用信息

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值