LLM 11-环境影响
在本章中,首先提出一个问题:大语言模型对环境的影响是什么?
这里给出的一个答案是:气候变化
- 我们已经比工业革命前的水平高出1.2°C
- 需要保持在1.5°C以下以避免气候危机
- 根据目前的轨迹,在未来几十年内将达到2.7°C
另一方面,我们看到训练大语言模型所需的计算量大幅增加(从而导致二氧化碳排放)。以下是一些数据:
- Strubell et al., 2018估计,训练排放了626,000磅二氧化碳(5辆汽车终生的排放量)。
- DeepMind的Gopher报告称,训练产生的二氧化碳估计为380吨。
本章将学习如何将大语言模型与环境影响联系起来。
学习目标:
- 全面了解大语言模型对环境的影响。
- 能够计算训练特定语言模型产生的排放量。
- 提高对监测和减轻(负面)环境影响的认识,甚至承担个人责任。
注意事项:
- 本章的重点是了解(环境)成本。大语言模型大幅提升了效果,但是需要考虑成本。如何做到这一点非常具有挑战性。
- 与此同时,世界人口的收益和成本往往非常不均衡,成本“不成比例地落在穷人和弱势群体身上”。
- 所提供的所有数字都是估计,因为:
- 缺乏对数据中心的监控和信息
- 这些信息通常是私有的
- 很难用摊余成本进行信用/责任分配(例如,建立数据中心+训练多个模型,训练一个模型+使其适配许多下游任务)。
11.1 生命周期评估
本节主要基于Ligozat et al. (2021)的论文,从多个角度进行探讨语言模型/AI对气候影响的内容:
从哲学角度来说,大多数关于人工智能和机器学习对环境影响的工作都集中在温室气体排放(受气候变化启发)上,但更重要的是(尽管很难)采取系统方法来思考:
- 对环境的全面影响(排放、水足迹)
- IT设备的整个生命周期(例如,生产、使用、寿命终止)
从**生命周期评估(LCA)**的角度来说:
- 生命周期评估(LCA)(ISO 14040和14044)为实现这一点提供了一个框架。
- 需要“从系统的角度”来避免“一个问题的解决方案会产生几个新的、经常被忽视的问题”。
从IT设备的生命周期来说:
- 生产:
- 原材料提取:提取矿石以及转化为金属的所有过程
- 制造:包括制造设备的所有过程
- 运输:设备运输过程
- 使用:设备的实际能耗
- 寿命终止:拆除、回收/处置设备
此时要对生命周期中的注意事项做一下说明:
-
生产
- 我们没有针对GPU/TPU的生命周期评估
- 法国仅使用CPU的数据中心:40%的温室气体排放源于生产阶段(Berthoud et al. 2020)
- 数据中心的建立有很多目的,需要进行信用分配,以确定由于大型语言模型(由于情况变化很快,很难提前估计)所占的份额。
- 示例:制造占iPhone 5总排放量的75%
-
使用
- 主要取决于能源(煤炭或水电)的碳强度
-
生命的终结
- 通常没有很好的记录
- 80%的电子设备未被正式回收
特别地,在使用阶段:
-
数据:需要获取、生成和存储数据
-
学习:训练大语言模型
- 这包括实验和超参数调整。
- 这是“一次性成本”,直到您需要再次更新模型。
-
推理:在生产中运行模型
-
示例:谷歌每天收到56亿次搜索查询(来源)。
-
通常部署的是从大模型中蒸馏出来的小得多的模型(如果特定于任务,则可以小得更多)。
-
如果你需要进行多个预测(例如,情感、主题分类等),可以对句子进行一次编码(例如,BERT),并使用不同的任务特定的分类头。
-
从环境影响的角度来说:
-
温室气体排放:导致气候变化
-
水足迹:淡水在一些地区是稀缺资源
- 数据中心使用水进行冷却(需要电力)
- 发电是第二大用水需求,处理水和废水需要电力
-
对人类的危害:释放到环境中(空气、水、土壤)的化学物质,可导致癌症等。
- 芯片制造在制造种产生有毒废料
-
非生物资源枯竭
- 化石燃料
- 用于制造电子设备的矿物(锂、钴)。您可以通过此链接了解更多关于数据中心对环境的影响。
其他二阶效应(更多细节):
language model ⇒ compute ⇒ energy use ⇒ greenhouse gas emissions ⇒ environmental impact \text{language model} \quad\Rightarrow\quad \text{compute} \quad\Rightarrow\quad \text{energy use} \quad\Rightarrow\quad \text{greenhouse gas emissions} \quad\Rightarrow\quad \text{environmental impact} language model⇒compute⇒