【2022AAAI】ReforesTree: A Dataset for Estimating Tropical Forest Carbon Stock with Deep Learning and

摘要

森林生物量是影响未来气候的关键因素,世界迫切需要高度可扩展的融资计划,如碳补偿认证,以保护和恢复森林。目前人工测量单棵树木的森林碳储量清查方法耗时、耗力、耗成本,而且被证明是主观的。这些方法会导致碳储量被严重高估,最终导致对森林融资的不信任。利用机器学习和遥感技术的进步产生影响和扩大规模的潜力很有希望,但需要高质量的技术才能取代当前的森林碳储量认证协议。

在本文中,作者介绍了厄瓜多尔六个农林业碳补偿地点的森林碳储量基准数据集 ReforesTree。此外,作者还展示了一个基于深度学习的端到端模型,该模型利用低成本的纯 RGB 无人机图像中的单棵树检测,在官方碳抵消认证标准范围内准确估算出森林碳储量。此外,对于这种小规模的热带农林业场地,作者的基线 CNN 模型优于最先进的基于卫星的森林生物量和碳储量估算。作者提出这一数据集是为了鼓励该领域的机器学习研究,以提高碳抵消项目中监测、验证和报告(MVR)的责任感和透明度,并通过精确的遥感技术扩大全球再造林融资规模。

引言

林业是一个庞大的产业,砍伐森林的原因主要是经济驱动(粮农组织,2020 年)(Geist 和 Lambin,2001 年)。在过去的 20 年中,人们一直在努力保护森林,以减轻和防止这些损失。碳抵消是全球融资战略之一(Blaufelder 等,2021 年)。最初,它是作为《京都议定书》下的清洁发展机制(CDM)开始的,允许工业化国家的政府和商业组织通过购买碳信用额度来抵消工业化排放,从而对发展中国家的林业进行投资(FAO 2020)。后来,其他一些独立机构也制定了核查和认证碳抵消项目的官方标准,如黄金标准(GS)和验证碳标准(VERRA)。森林碳抵消项目的认证过程是资本和劳动密集型的,特别是由于对森林碳储量进行人工监测、核查和报告(MVR)的成本很高。

最近的研究调查(Badgley 等人,2021 年;West 等人,2020 年)表明,目前的人工森林碳储量实践系统性地高估了高达 29% 的林业碳抵消项目,分析的抵消总量高达 3000 万吨 CO2e(二氧化碳当量),价值约为 4.1 亿美元。

高估的原因是对碳储量基线以及项目额外和泄漏报告的主观估计和建模。因此,有必要制定更高质量的碳抵消协议,并提高这些项目 MVR 的透明度和问责制。

在森林碳储量遥感研究中,有三个重要的关键方面。一个方面是资金问题;利用现有的、可获得的技术和传感器,降低森林所有者获得认证的成本和前期资本要求,特别是在中低收入国家。第二个方面是减少碳储量估算的主观性,提高碳抵消认证协议的可信度和透明度。最后,由于森林恢复融资的紧迫性,解决方案需要具有可扩展性,尤其是在热带地区。

目前,各种验证机构、新企业和学术界正在开发遥感技术,以实现林业碳抵消项目部分认证过程的自动化(Narine、Popescu和Malambo 2020;Dao et al . 2019)。卫星图像的质量和可用性正在提高,并与最先进的深度学习和激光雷达相结合,有望很快绘制地球上每一棵树的地图(Hanan和Anchang 2020),并使森林地上生物量和碳能够大规模估计(Saatchi等人2011;Santoro等人2021)。与目前的人工估算相比,这些进步减少了时间和成本,提高了透明度和问责制,从而降低了森林所有者和买家进入市场的门槛(Lutjens, Liebenwein, and Kramer 2019)。然而,这些算法有可能进一步导致对碳储量的系统性高估,而不是减少碳储量,并且不适用于10,000公顷以下的小规模森林(White等人,2018年),(全球森林观察2019年)。

准确估计森林碳储量,特别是对于小规模的碳抵消项目,提出了几个有趣的机器学习挑战,例如物种的高方差和单个树冠的遮挡。有许多有前途的方法,如高光谱物种分类(Schiefer等人2020),基于激光雷达的高度测量(Ganz, Kaber和Adler 2019)和跨站点的个体树冠分割(Weinstein等人2020 b)。然而,这些应用程序主要是在温带森林的数据集上开发的,据作者所知,没有公开可用的热带森林数据集,既有航空图像,也有地面真值实地测量(Ground Truth)

本文采用ReforesTree数据集构建了6个热带农林业再造林项目点的数据集,其中包含超过4600棵树的树冠边界框,这些树的胸径(DBH)、物种、类群、地上生物量(AGB)和碳储量都与之匹配。该数据集代表了低成本、高分辨率RGB无人机图像的地面真实数据(Ground Truth),用于训练碳抵消协议的新模型和对现有模型进行基准测试。

总之,通过 ReforestTree,作者做出了以下贡献: 1)首个可公开获取的热带农林业数据集,其中包含与高分辨率 RGB 无人机图像相匹配的单棵树木级别的地面实况实地数据;2)一种通过深度学习和航拍图像减少目前对森林碳储量过高估计的方法,用于碳补偿项目。

图1:reforestreet数据集各站点的无人机图像,分辨率为2cm/px。

图1:reforestreet数据集各站点的无人机图像,分辨率为2cm/px

相关工作

遥感深度学习

近年来,深度学习(DL),特别是深度卷积神经网络(CNN)在遥感界的图像分析中越来越受欢迎(Ma et al . 2019), (Zhu et al . 2017)。随着计算能力的提高、更大的数据集、迁移学习和网络架构的突破,深度学习模型在土地利用和土地覆盖(LULC)分类、分割和检测等多个图像任务中优于传统的图像处理方法。遥感中深度监督学习的例子有野火预测(Yang, Lupascu, and Meel 2021),入侵物种检测(Bjorck et al 2021)。cnn提供了识别空间和时间数据模式的特征提取能力,即使是低分辨率输入。随着元学习和小概率学习的最新进展,这些模型可以在更大的数据集上训练和推广,并对局部方差进行微调。

人工森林清查

标准化森林碳储量清单包括对项目地点的树木样本进行人工测量和登记。如图 2 所示,树木的胸径 (DBH)、高度和树种等指标将通过科学开发的回归模型(称为异速方程)来计算地上生物量 (AGB)。

森林的总生物量是总 AGB 与地下生物量 (BGB) 相加的结果,地下生物量是使用森林类型和地区特有的根茎比计算得出的。

在这里插入图片描述

如图 2 所示,如何计算一个项目需要认证的正确碳抵消量(CO2e)的程序是标准化的(Pearson、Walker 和 Brown,2005 年)。CO2e 也称为基线森林碳储量,相当于总生物量除以 2。尽管这种方法容易产生误差(Petrokofsky 等人,2012 年;Malhi 等人,2004 年),而且会系统性地高估碳储量(Badgley 等人,2021 年),但它是目前林业项目认证的标准化森林资源清查方法。

相关方法和模型

以下是三种远程估算森林碳储量的方法,改编自(Sun and Liu 2019);

  • 基于国家和区域森林清单和回归模型的基于清单的模型,由于数据中密集的商业森林的过度表征,已知会高估(2019年全球森林观察)。
  • 利用光学遥感、合成孔径雷达卫星(SAR)和激光雷达(lidar)数据集的卫星模型,创建全球地上生物量和碳地图(Santoro et al 2021;Saatchi等人2011;Spawn, Sullivan, and Lark 2020)。
  • 基于生态系统的模型,利用地形、高程、坡度、坡向等环境因子构建统计模型,定量描述森林碳循环过程,估算森林碳储量

显然,这些方法中最具可扩展性和可负担性的是基于卫星的模型。然而,由于这些模型和全球地图的分辨率较低(30-300米),这些模型和全球地图还不能在当地尺度上估计碳储量,也不能对高度异质性的茂密森林地区提供准确的估计(Bagheri, Shataee, and Erfanifard 2021)。基于单棵树木的模型可将单棵上层树木考虑在内,特别是在与地质统计和卫星数据融合的情况下,可提供这种准确性。

近年来,研究人员在标准林业清查任务方面取得了很高的准确性,如单株树冠检测(Weinstein等人2019)、基于激光雷达的高度估计(Ganz, Kaber和Adler 2019)和物种分类(Miyoshi等人2020;Schiefer等2020;Mayr“a”等人2021),使用深度学习模型和航空图像

这表明,将高分辨率图像与深度学习模型相结合,作为一种精确估算小规模再造林项目碳储量的方法,具有很大的潜力(Sun and Liu 2019)。

由于大多数热带森林位于中低收入国家,无法获得高光谱、激光雷达和其他更先进的传感器,因此需要利用现有技术开发模型。基本的高分辨率 RGB 无人机图像是对精度和数据可用性的一种权衡无人机图像(1-3 厘米/px 分辨率)与 CNN 相结合,以前曾用于直接估算单棵红树林的生物量和碳储量,或通过检测物种或树木指标(如 DBH 或高度)间接估算生物量和碳储量,其精确度与人工实地测量相近。通过利用多融合方法,例如结合低分辨率卫星、高分辨率无人机图像、实地测量和上下文生态或拓扑数据,以及多任务学习,例如将树木指标和碳储存因子作为辅助任务,这些模型可以取代并扩展现有的人工森林资源清查工作。

目前有几个利用无人机图像进行树木检测和分类的数据集,如 NEON 数据集(Weinstein et al 2020a),或瑞典森林局主要来自美国或欧洲温带森林的数据集。据作者所知,目前还没有同时包含野外测量数据和异质热带森林无人机图像的公开数据集

数据集和方法

ReforesTree 数据集包括厄瓜多尔中部沿海地区的六个农林业基地。这些地点属于热带干旱森林类型。这些基地在 2020 年完成森林清查和无人机图像拍摄后,就有资格获得碳补偿认证。每个基地的信息见表1。
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/9829d94bf88d445dbba1b2b890c71d37.png

森林清查数据和无人机图像

实地测量由人工完成,包括现场范围内所有活树和灌木丛的 GPS 位置树种每棵树的胸径 (DBH)
无人机图像于 2020 年由 Mavic 2 Pro 无人机上的 RGB 相机拍摄,每个像素的分辨率为 2 厘米
每个地点约 0.5 公顷,主要种植香蕉树(蕈科)和可可树(可可),种植时间为 2016-2019 年。

在这里插入图片描述

地上生物量 (AGB) 是使用已公布的热带农林业异速方程计算的,即公式 1 适用于果树(包括柑橘类水果),公式 2 适用于香蕉树,公式 3 适用于可可树,公式 4 适用于遮荫树(木材)。这些都是全球认证标准中常用的方法。碳储量采用标准森林资源清查方法计算,根茎比为 22%,这是热带干旱地区重新造林的标准比例。

数据处理与方法

原始数据的处理分为几个步骤,如图 3 所示。

在这里插入图片描述

这一过程的目标是获得一个机器学习准备就绪的数据集,该数据集由单棵树的匹配无人机图像和树木标签(如 AGB 值)组成

最初,RGB 正射影像图被切割成 4000×4000 块,然后通过 DeepForest 发送。DeepForest 是一个用于从 RGB 图像中预测单个树冠的 python 软件包,它在一些人工标注的地点边界框上进行了微调。之后,过滤掉了白色含量超过 80% 的边界框,在无人机图像的边界上设置边界框,由于香蕉树易于识别的特点,将边界框手动标记为香蕉和非香蕉,得到所有树的边界框清晰,如图4所示。

为了将从地面测量中提取的树木信息与检测到的树木的边界框融合,我们使用了 OneForest 这种最新的机器学习方法,用于将 citizen data 与无人机图像进行融合。为了消除两个 GPS 位置中引入的噪声,OneForest 使用了一种贪婪的最优传输算法。这是一种已知的耦合方法,用于映射两个 GPS 位置(无人机图像中的边界框中心和实地数据中的树木 GPS 位置)。该方法由 Villani 研发,通过一个凸线性规划找到两个分布之间的最小距离,优化匹配,以最小的成本将质量从一个分布移动到另一个分布。成本通常定义为两个分布之间的欧几里得距离或库尔贝克-莱布勒发散。最优值,即两个分布之间的最小距离,被称为瓦瑟斯坦度量。

在这里插入图片描述

基线 CNN 模型

通过匹配边界框和树标签的数据集,作者微调了一个基本的预训练 CNN(ResNet18),利用均方误差损失估算单棵树的 AGB。尽管采用的是简单的基线模型,但结果还是令人满意的,这也证明了从无人机图像中估算单棵树木的潜力。

有 14 幅图像被确定为大于预期的树冠尺寸,并以 800×800 的尺寸进行了中心裁剪。为了保留树冠大小信息,较小的图像被补零至 800×800,然后调整所有图像的大小以适应网络结构。

该数据集的树种不平衡,其中 43% 为可可,32% 为香蕉。此外,由于这些树木是在 2016-2019 年间种植的,因此许多树木的大小(如 DBH 胸径)相似,半数树木的 DBH 在 7-10 厘米之间。训练数据集由来自不同项目地点的相同数量的树种和 DBH 胸径样本组成。

试验

随着新的生物量地图和森林蓄积量估算模型的出现,作者使用 ReforesTree 数据集对这些地图进行了基准测试,并与作者的 AGB 估算基线 CNN 模型进行了比较。

作者比较了( Global Forest Watch 全球森林观察,2019 )、(Spawn, Sullivan, and Lark 2020)和(Santoro et al 2021)的地图。全球森林观察的地面木质生物量数据集是 2000 年分辨率为 30m×30m 的全球 AGB 和碳密度地图。该数据集基于 70 多万个经过质量过滤的地球科学激光测高系统(GLAS)激光雷达观测数据,并使用基于不同地区和植被类型的异速方程的机器学习模型。第二个数据集(Spawn、Sullivan 和 Lark 2020)是基于叠加输入地图的 300m×300m 协调地图。利用树木覆盖和土地覆盖的辅助地图以及基于规则的决策模式,按照每种植被类型的相对空间范围比例分配输入地图。最后也是最新的 100m×100m 数据集(Santoro 等人,2021 年)是通过空间合成孔径雷达(ALOS PALSAR、Envisat ASAR)、光学(Landsat-7)、激光雷达(ICESAT)和辅助数据集获得的,采用了多种估算程序,并根据地面估算的木材密度和茎干到总生物量扩展因子,使用了一套生物量扩展和转换因子。

如表2所示,所有可用的全球AGB地图都倾向于高估地面真值,最高可达10倍。这些结果并不令人鼓舞,表明这些地图远不够精确,无法像ReforesTree数据集那样用于小尺度森林碳储量的遥感。 这些不容乐观的结果表明,这些地图的精确度远不足以用于小规模的森林碳储量遥感。

另一方面,作者的基线模型有轻微低估生物量的倾向。该模型具有明显的优势,可以在数据集上进行训练,但这些初步结果表明,使用无人机图像进行森林碳清查的单株树估计方法有希望。
在这里插入图片描述

结论

作者引入reforestreet数据集,希望鼓励其他机器学习社区接受挑战,开发低成本、可扩展、值得信赖和准确的解决方案,用于监测、验证和报告热带再造林清单。

作者还简要介绍了一种从野外数据和无人机图像中创建注释机器学习数据集的方法,并训练了一个用于估算单棵树木地上生物量的基线 CNN 模型。该方法包括一个数据处理管道,利用微调树冠检测算法和最佳传输匹配算法来减少 GPS 噪音。

由实地测量数据和低成本、高分辨率 RGB 无人机图像组成的 ReforesTree 数据集代表了热带地区森林碳储量遥感的准确性和数据可用性之间的权衡。该数据集可用于训练新模型或对现有模型进行基准测试,以用于碳抵消再造林协议的 MVR。小规模热带再造林项目的遥感清查工作面临着一些生态挑战,如生物多样性高、树冠郁闭度高和地形复杂等。这个数据集是开发一个可以在局部尺度上微调的广义模型的开始。未来的工作将研究改进方法和减少机器学习就绪数据集中的误差的方法,并增加可解释性,以获得可信和透明的模型。此外,我们还看到了融合卫星和其他可用地理生态数据层以及利用多个可用标签(如 DBH、物种)作为多任务学习问题中的辅助任务的进一步潜力。

技术附录

原始数据清理

所有 28 个物种被分为 6 个物种科群:香蕉、可可、水果、木材、柑橘和其他。
实地数据是以标准人工森林资源清查的方式手动收集的,可能会导致人为错误、缺失值和异常值。

数据集需要反映真实情况。因此,不要从数据集中不必要地删除树是很重要的。所有缺失的胸径值都是根据同一树种种植当年的平均胸径值计算的。28个树种中,只有3个树种(共25棵)胸径值缺失:23棵柠檬树(柑橘)、1棵巴尔沙树(木材)和1棵巴瑞布树(其他) 这些树木的 DBH 值是根据同科同类、同年种植的其他树木的 DBH 值推算出来的。此外,有 8 棵香蕉树的 DBH 值大于 50 厘米,这高得不切实际。假定是人工输入错误,这些数值与当年种植的香蕉树的最大值进行了交换。

图5表示每个地点的树种科群数量。所有地点都有所有树种科类的树木,但可可和香蕉所占比例较高。

在这里插入图片描述

基于卫星的 AGB 地图基准

图6显示了基准分析的不同步骤,以及我们如何根据卫星地图计算出 ReforesTree 站点的 AGB 总量。该图取自 0 号站点。图中的数值为 AGB 密度。

为了对低分辨率(LR)卫星地图进行基准测试,作者将其拟合到与GPS坐标重叠的高分辨率(HR)无人机图像上

总AGB的计算分为五个步骤,如图6所示:

  • 1.对 LR 卫星地图进行裁剪,在场地多边形周围添加衬垫,以降低计算强度(原始卫星地图)
  • 2.对该地图的值进行线性插值,并以与无人机图像相同的 HR 像素分辨率调整地图大小(卫星插值地图)
  • 3.根据无人机图像的 GPS 位置(最大值/最小值)进一步裁剪地图
  • 4.去除卫星地图中无人机图像以外的所有像素,将场地区域过滤为白色(卫星过滤)
  • 5.最后,将过滤后地图的 AGB 平均密度与项目场地面积相乘,得到 AGB 总值

在这里插入图片描述
作者分析了以下三张地图:

•(2019年全球森林观察):2000年30 × 30米分辨率的地上木质生物量。

•(Spawn, Sullivan, and Lark 2020): 2010年全球地上和地下生物量碳密度地图,分辨率为300x300m。

•(Santoro 2018): GlobBiomass - 2010年100 × 100米分辨率的全球森林生物量数据集。

基线CNN

作者在GeForce RTX 3090类型的单个GPU上训练模型。使用的学习率为1e-3,批次大小为64,30个epoch,实现均方根损失(RMSE)为0,1。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值