【论文阅读】基于卷积神经网络的高分辨率无人机RGB图像中的林树种

提出了一种基于U-net的分割算法和CNNs的分类算法综合

“图像处理以及深度学习均在RStudio上完成”

“通过减去数字地形模型来计算归一化数字表面模型(nDSM)”

抽象

在植被遥感中使用无人驾驶飞行器(UAV)可以灵活且经济高效地获取非常高分辨率的图像。尽管如此,目前绘制森林树种地图的方法并没有利用相关的、丰富的空间信息。在这里,我们评估了卷积神经网络(CNN)和来自无人机的超高分辨率RGB图像在温带森林树种测绘方面的潜力。我们使用多旋翼无人机在黑森林南部地区和德国海尼希国家公园的 2 公顷温带森林上获得了非常高分辨率 (<51 厘米) 的 RGB 图像。为了充分利用CNN的端到端学习能力,我们使用了语义分割方法(U-net),该方法同时对图像中的树种进行分割和分类。凭借研究区域、场地条件、光照特性和物候方面的多样化数据集,我们准确地绘制了 1 种树种、0 个属级类别、枯木和森林地面(平均值 F73 得分 1.0)。CNN 训练期间较大的切片大小会对代表性不足类的模型精度产生负面影响。来自归一化数字表面模型的额外高度信息略微提高了模型精度,但增加了计算复杂性和数据要求。较粗糙的空间分辨率大大降低了模型精度(26 cm 分辨率下的平均 F32 得分为 <>.<>)。我们的研究结果强调了无人机在森林树种测绘中可以发挥的关键作用,因为空中和星载遥感目前无法提供可比的空间分辨率。CNN的端到端学习能力使得广泛的预处理部分过时。使用庞大而多样的数据集有助于CNN的高度通用化,从而促进可转移性。高分辨率无人机图像和CNN的协同作用为绘制森林树种提供了一种快速、灵活而准确的方法。

关键字:深度学习;森林清单;卷积神经网络;树种分类;无人机系统;温带森林

1 简介

        在分析高空间分辨率遥感数据时,最有效的深度学习算法是卷积神经网络(CNN),因为它们是专门为分析空间模式而设计的。

一些研究已经使用CNN和高分辨率遥感数据来绘制树种图。(高光谱)Fricker 等人(2019 年)专门针对森林环境,使用 CNN 根据机载数据对针叶混交林中的七种树种进行分类和绘制,高光谱结果非常准确,伪 RGB 数据结果中等准确。

Trier等人(2018)还使用机载高光谱数据使用CNN对北方森林中的松树,云杉树和桦树进行分类。 Nezami 等人(2020 年)显示了对具有高光谱和 RGB 图像以及冠层高度模型的不同组合测试 CNN 的相同树种进行分类的非常准确的结果。到目前为止,绘制森林中的树种通常需要高光谱分辨率数据,这对于非专业用户来说很麻烦。

        仅依靠 RGB 信息,使用 CNN 将单个树种与其他物种的背景准确映射(Kattenborn 等人,2020 年,Kattenborn 等人,2019 年a,洛佩斯-希门尼斯等人,2019 年,莫拉莱斯等人,2018 年,瓦格纳等人,2020 年)。 Natesan 等人(2019 年)使用 CNN 将先前从 RGB 数据中提取的树冠分类为白松、红松和非松。尽管有光谱分辨率,但许多研究在分类之前使用了额外的预处理步骤(例如,从辅助遥感数据中分割树或树定位、背景去除、特征工程),这限制了可转移性并增加了此类应用的计算负载。

        随着消费级无人机的兴起,可以轻松、低成本地采集非常高分辨率的RGB数据,仅使用RGB图像绘制异质森林中的树种地图引起了人们的高度关注,因为它不依赖于复杂的传感器,不需要大量的校准和预处理,因此,能够被广泛的受众应用(Komárek, 2020). 上述研究表明,无论光谱分辨率如何,当考虑小样本物种或相对均匀且地点变异性较小的环境时,高空间分辨率遥感数据足以绘制树种图。为了进一步评估高分辨率图像在绘制森林树种地图方面的潜力,最好在森林类型、场地条件和林分结构梯度较大的异质物种样本上测试CNN。此外,仅基于RGB图像进行这种评估将是有价值的,因为使用RGB数据可确保广大受众能够访问此类应用程序。最近用于语义分割的CNN架构(例如,U-Net(Ronneberger等人,2015)或DenseNet(Jegou等人,2017))促进了端到端学习,可以直接应用于原始遥感数据,并以原始图像分辨率进行映射,并克服了对先前分割和特征工程步骤的需求。

        在这里,我们想评估来自无人机的非常高分辨率的RGB图像的潜力,用大量的和异质的样本来绘制林木混合林的树种。我们使用CNN来绘制德国温带落叶林和针叶混交林中基于无人机的非常高分辨率RGB图像的树种。我们使用多类语义分割方法(U-net)来同时分割和分类14个类(即9个树种、3个属级类、枯木和林地)。我们的主要研究问题如下:RGB图像是否足以准确绘制异质性森林中的树种?此外,鉴于CNN最近才被引入植被遥感领域,人们对有关遥感数据的要求知之甚少。因此,我们测试了几种空间分辨率、摄影测量三维信息的额外价值以及输入图像的不同尺寸。

2. 材料和方法

2.1. 研究区域

研究区域分别位于德国巴登-符腾堡州和图林根州的南部黑森林地区和海尼希国家公园(NP)。该地区主要被混交林和针叶林覆盖,主要树种是Picea abies L.(40%覆盖率),Fagus sylvatica L.(18%)和Abies alba Mill。(13%).不太常见的树种是Quercus robur L.(5%),Pinus sylvestris L.(4%)和Pseudotsuga menziesii Mirbel(4%)。

2.2. 数据采集

我们使用 Agisoft Metashape v.51.1.5得出了总共 4 个正射镶嵌。这包括模糊图像的过滤、图像匹配和密集的点云创建。数字高程模型来源于密集点云。正射镶嵌是通过在数字高程模型上投影单个影像来创建的。根据相应无人机的 GNSS 轨迹日志自动执行地理配准。

我们通过减去数字地形模型来计算归一化数字表面模型(nDSM)。数字地形模型来自分辨率为1米的机载激光扫描,对正射镶嵌进行重采样,空间分辨率为 2 cm。为了补偿各个无人机场景照明属性的差异,我们对所有正射镶嵌的 0.01% 和 99.99% 百分位数应用了直方图拉伸。

2.3. 引用数据提取

U-net分割算法的训练需要对RGB图像进行有规律的分块。此外,还需要为训练提供掩码形式的分类区域。我们使用ArcGIS v.10.6.1(ESRI, Redlands, CA, USA)通过视觉解读和手动划定正交图像和NDSM中的类别来获得这些掩码。本研究中共有9个树种、3个属级类别、枯木和林地被分类。来自森林清查数据的树种组成、树高、DBH和树木的相对位置帮助了视觉分类。

2.4. 数据拆分

在模型训练之前,我们随机抽出10%的数据集(基于512像素的瓷砖)作为独立测试数据。此外,为了对结果进行目测,我们把整个100×100米的地块的无人机场景放在一边。512像素的测试瓦片所覆盖的区域也被用于较小瓦片的测试数据集,并相应地增加瓦片的数量。采用与测试数据集相同的程序,我们将剩余的数据集随机分成75%用于模型训练,25%用于模型验证。

2.5. 基于 CNN 的树种映射

对于树种映射,我们采用了U-net CNN架构(Ronneberger等人,2015年,图3)。U-net由用于捕获上下文的收缩路径(图左侧)和用于将上下文信息映射到原始图像分辨率的对称扩展路径(图右侧)组成。在我们的实现中,承包路径有四个块。每个块由两个 3 × 3 卷积组成,然后进行批量归一化和整流器线性单元 (ReLU) 激活。一个 2 × 2 最大池化操作,步幅为 2,每个块结束,将特征图的空间维度减少了一半。在每次最大池化操作之后,我们将特征图的数量增加了一倍。扩展路径的每个块都由特征图的上采样和随后的 2 × 3 卷积(“上卷积”)组成,将特征图的数量减少了一半。生成的特征图与收缩路径中相应块的特征图连接。随后重复 3 × 1 卷积、批量归一化和 ReLU 激活。随着扩展路径的每个块,我们将特征图的数量减半,并将空间维度翻了一番。像素级分类在随后的 1 × <> 卷积层进行,具有 softmax 激活。此 softmax 激活将学习的特征映射到最终类概率。像素的最大类概率表示相应像素的最终类。

适用于树种分割的U-net CNN架构(Ronneberger等人,2015)。此方案说明了如何分析 128 × 128 像素切片。

由于树种分布不平衡,我们在模型训练过程中使用加权分类交叉熵作为损失函数。因此,掩码和模型输出之间的分类交叉熵由物种的面积相关份额加权;在这种情况下成反比。作为优化器,我们选择了学习率为 1e-4 的 RMSprop。为了更好地进行模型泛化,我们在模型训练期间进行了随机数据增强。这种增强包括将训练数据集膨胀到其大小的四倍,应用随机水平和垂直翻转,以及随机改变输入图块的亮度(90-110%)和对比度(80-120%)值。模型分别针对 40 × 3、12 × 46 和 128 × 128 像素图块训练了 256 个周期,批大小为 256、512 和 512。验证数据集中损失值最低的纪元保留为最终模型。

所有代码都是用R v.3.6.3(R Core Team,2020)编写的,使用包“tensorflow”(Allaire and Tang,2019),“keras”(Allaire and Chollet,2019),“tfdatasets”(Allaire et al.,2019)和“tibble”(Müller和Wickham,2019),可在 GitHub - FelixSchiefer/TreeSeg 获得。我们将R接口用于Keras(Chollet和Allaire,2017)和TensorFlow后端v.2.0.0(Abadi等人,2016)。在与CUDA兼容的NVIDIA GPU(GeForce RTX 2080 Ti,11 GB RAM)和cuDNN库(Chetlur等人,2014)上训练CNN模型需要7到14个小时。根据要求,也可以提供本研究中使用的数据。

2.6. 准确性评估

为了分析切片大小、高度信息和空间分辨率对CNN精度的影响,我们比较了几个模型的结果。三个CNN使用RGB数据进行训练;每个磁贴都有不同的磁贴大小。另外三个CNN使用RGB + nDSM数据进行训练;每个磁贴都有不同的磁贴大小。为了分析空间分辨率的影响,我们用RGB + nDSM数据和256×256像素的固定图块大小训练了四个CNN;每个都具有不同的空间分辨率(4、8、16 和 32 厘米)。

我们将测试数据集中手动描绘的树冠与 CNN 预测进行了比较,以根据总体准确性 (OA)、精度、召回率和 F1 分数(精度和召回率的调和平均值)评估 CNN 模型。报告的精度基于像素级别。对于目视检查,我们将最佳模型应用于模型训练期间未使用的整个无人机场景。我们使用了移动窗口方法,在 x 和 y 方向上具有半切片大小重叠。从每个像素的九个预测中,最终预测是通过多数票得出的。

3. 结果

3.1. 模型训练

对于每个模型,验证损失在 40 个 epoch 期间达到最小值。达到最小值后,所有模型的训练损失收敛于零(未描述),而验证损失停滞或再次增加。使用较小磁贴训练的模型显示验证损失减少得更快。

CNN 模型训练期间的验证损失。曲线被平滑以获得更好的可视化效果。

3.2. 模型结果

性能最佳的模型是使用 RGB + nDSM 数据和 128 × 128 像素的图块大小(OA = 89%,平均值 F1-Score = 73%)训练的

3.3. 独立场景上的预测

我们将最佳模型(即在 128 × 128 像素图块上使用 RGB + nDSM 训练的 CNN)应用于未用于训练的无人机场景。整个 3 × 100 m 无人机场景的模型推理大约需要 100 分钟。丰富的类几乎被完美地预测,但该模型与代表性不足的类作斗争。CNN对较大瓷砖的预测产生了类似的模式,但瓷砖的边缘效应不太明显

(a) 基于无人机的RGB正射镶嵌,(b)手动划定的参考数据,(c)基于128×128像素图块(RGB + nDSM)的CNN预测。

4. 讨论

4.1. 模型性能

在我们的研究中实现的模型精度相对较高,特别是考虑到 14 个类(即 <> 个树种、<> 个属级类、枯木和森林地面)的数量以及我们仅使用 RGB 图像的事实。此外,我们的数据具有高度的异质性,因为它们包括不同的森林类型(即混合,落叶和针叶林),不同类型的使用(即Hainich NP的无人管理森林和南部黑森林的商业森林),并具有不同的年龄结构。通过使用语义分割方法,在模型推理之前不需要树分割或定位步骤,使我们能够充分利用CNN的端到端学习能力。

4.2. 瓷砖大小

对于大多数类,切片大小对模型性能没有显著影响。仅对于代表性不足的类,较大的切片大小是不利的。这不太取决于瓷砖尺寸本身,而是取决于瓷砖内的物种覆盖率。对于较小的图块,图块上稀有物种的面积百分比较大,因此代表性不足的物种在训练期间对模型更新的贡献更大。而对于较大的瓷砖,代表性不足的物种会迷失在更频繁的物种的周围信息中。尽管使用加权分类交叉熵作为损失函数来补偿这种不平衡,但情况仍然如此。

4.3. 树冠高度信息

将nDSM的高度信息添加到CNN略微提高了大多数类的模型精度。我们对树冠的视觉感知我们假设nDSM的基本结构信息已经通过阴影和照明差异固有地包含在RGB数据中。虽然无论如何都需要从无人机数据创建数字表面模型来计算正射镶嵌,但应该记住,对于 nDSM 的计算,需要数字地形模型Wallace 等人,2019 年),这反过来又需要额外的处理步骤。此外,在CNN中包含额外的层会增加参数的数量,从而增加计算复杂性,并可能超过引入的好处。(不加)

4.4. 空间分辨率

我们的结果表明,极高的空间分辨率对于使用RGB数据准确绘制森林树种至关重要。这些发现强调了无人机在遥感森林评估中可以发挥的关键作用,因为机载和卫星遥感数据目前无法提供可比的空间分辨率。虽然大多数数据集份额较小的物种无法用粗的空间分辨率识别,但枯木仍然可以充分识别,尽管它在数据集中所占的份额很小(0.95%)。这可能是因为枯木的视觉特征仍然以较粗糙的空间分辨率表示。这表明,对于某些类,如果存在突出要素,即使在较粗糙的空间分辨率下也可以进行映射。因此,Safonova等人(2019)在基于无人机的RGB图像上使用CNN,空间分辨率为5-10厘米,以检测树皮甲虫感染后受损和死亡的Abies sibirica树木,F1评分高达93%。

为了对空间分辨率的影响进行定性检查并获得结果的因果解释,我们基于过滤器可视化检查了CNN的学习特征。CNN第四块和中心块的过滤器可视化揭示了类似于典型冠层特征的精细尺度模式,例如针叶树状分支结构(图a,c)或阔叶状冠层结构(图b,d)。这种模式无法用更粗糙的空间分辨率来揭示,这强调了我们的发现,即非常高的分辨率是识别森林树种的关键。因此,进一步提高空间分辨率(例如亚厘米)甚至可能提高基于CNN的树种映射能力。

4.5. 模型泛化

Weinstein 等人(2020 年)报告了 CNN 在四种不同森林类型上检测单个树木的高泛化能力。他们发现,经过所有可用森林类型训练的CNN的表现优于单个本地训练的CNN。他们的结果表明,当CNN在大型和异构数据上训练时,模型具有很高的可转移性。

Weinstein等人(2020)一致,我们假设更多的训练数据和增加的异质性将进一步提高CNN的准确性和泛化。 再加上遥感和参考数据的大型数据库的建立(Zhu等人,<>),这为迁移学习开辟了可能性甚至是通用模型的创建。在迁移学习的情况下,CNN在大型异构数据集上进行预训练,并且针对各自的用例对模型权重进行微调,而通用模型则在所有现有数据上进行训练,因此可以跨站点传输。Weinstein等人(<>)已经展示了在各种景观上检测树木的未来前景。我们的结果显示了仅使用低成本的基于无人机的RGB数据和CNN对温带森林中的树种进行广泛应用的测绘的途径。

4.6. CNN架构

使用CNN从遥感数据绘制植被图的常用方法包括图像分类/回归或物体检测。分类和回归方法要么依赖于目标的先前分割(参见 Hartling 等人,2019 年、Natesan 等人,2019 年、Sothe 等人,2020 年),要么将预测分配给整个图像图块。这些方法派生空间显式地图的能力可能受到多种原因的限制:(1)它们需要额外的预处理步骤(例如分割,背景去除),或(2)需要单像素级别的分类来检索基于像素的预测,或(3)结果表示对象位置和(矩形)范围,而不是空间明确的对象。相比之下,语义分割是一种端到端的学习方法,它以原始空间分辨率以基于像素的方式将分割和分类结合起来,因此非常适合绘制森林中的树种。除了创建训练样本外,不需要事先进行分割或分类。

在这项研究中,我们使用了U-net架构,因为它即使有少量标记数据也能表现出色(Ronneberger等人,2015)。Lobo Torres等人(2020)比较了五种不同复杂性的模型,即U-net,FC-DenseNet,SegNet和DeepLabv3 +的两个变体,用于城市环境中树种的语义分割。他们的结果表明,架构的模型精度是可比的,而更复杂的模型(即DeepLabv3+)在模型训练和推理过程中需要多达两到四倍的时间。

5. 结论

我们表明,来自消费级无人机的RGB图像与基于CNN的语义语义相结合,能够以高精度在异质温带森林中绘制树种。总体而言,我们的结果表明,CNN模型在场地条件、森林类型、林分结构、物候和光照特性方面很好地推广了不同的数据集。

我们的发现强调了高分辨率无人机图像与基于CNN的分割程序之间的协同作用。CNN能够从这种高分辨率图像中学习物种特定的特征,而其端到端学习能力使遥感数据的广泛预处理变得过时,并简化了广泛的应用。我们的研究证明了协同使用无人机和CNN的潜力,从而为林业或大规模和长期生态研究的应用提供了有希望的未来前景。此类应用通常需要大规模和准确的森林树种地图,为此,基于实地的方法可能过于劳动密集型,而常用的机器学习方法可能不够准确。

使用消费级无人机的RGB图像与基于CNN的语义分割,高精度映射了温带森林树种。选择大瓦片(512 × 512 pixel tiles)尺寸可减少边缘效应,加速大规模应用。加入nDSM的高度信息略提升模型精度。高空间分辨率关键于使用RGB数据准确映射森林树种。这项研究强调了无人机图像和CNN协同应用在森林树种映射中的潜力。

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值