「竞赛调研」GeoLifeCLEF 2022 x FGVC9 - 任务及解决方案

Sternstunden

已于 2024-01-13 22:04:34 修改

阅读量1.1k

点赞数 13

分类专栏：竞赛文章标签：计算机视觉机器学习人工智能

于 2024-01-13 21:53:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52063383/article/details/135576419

版权

竞赛专栏收录该内容

1 篇文章 0 订阅

订阅专栏

任务说明

本次竞赛的目标是预测植物和动物物种的地理分布，比赛方提供了来自法国和美国的1.6M个地理定位的观测数据，涵盖17K个物种（其中9K个为植物物种，8K个为动物物种）。
解决方案
- rank1 - Sensio Team
  - 总体概述
    
    团队集成了3个模型：
  - 1. 一个双模态网络。团队使用 Nir+G+B ，在预训练的 resnet34 上，将其最后一层堆叠到一个 3 层 FCN（包含 环境向量 + 纬度 + 经度 + 国家 + 海拔平均值 + 最大-最小海拔 + "dothot" 编码（为某种 softmax-onehot 编码） ）上，并将这两个骨干网络连接到最终的 17k 类层。
  - 2. 一个预训练的 mobilenetv3 100 large 模型，输入为 R+G+B+Nir，FC 网络与1.相同。团队在两个模型堆叠的最后一层之间，添加了一个额外的带有 dropout 和 ReLu的 2048 线性层。
  - 3. 一个具有 32 个估计器和 12 的深度的随机森林，输入与前面的 FC 网络相同：环境向量 + 纬度 + 经度 + 国家 + 海拔平均值 + 最大-最小海拔 + dothot 编码（softmax-onehot 编码）的土地覆盖，总共 81 个输入特征。
  - 前两个模型在 CNN 模型上具有随机垂直和水平翻转、旋转以及 5-10% 的亮度和对比度的数据增强，并将这些与平均概率合并，最终将这种平均概率的策略应用于合并 3 个模型集成。
- 使用的方法
  - 输入聚合
    
    团队使用预训练模型，并随机初始化了添加到NIR通道的滤波器，将输入聚合在一起，最终形成了一个带有附加通道的补丁。然后，这个补丁可以被送入一个单独的CNN。这种方法训练了一个使用大多数可用模态的模型，将RGB补丁与NIR补丁聚合在一起，得到的模型相对简单。
  - 独立特征提取器
    
    团队使用基于CNN的一个特征提取器来处理RGB+NIR（Sensio Team和UdeM / Mila）或NIR+GB（Sen--sio Team）补丁，并使用基于神经网络的多层感知器（MLP）用于表格数据。这种独立特征提取器方法的优势在于，能够更有可能地从不同的模态中提取正确的相关信息。
  - 将预测结果进行平均
    
    团队训练单独的模型，并对它们的预测结果进行平均。这种方法的优点是简单，并且模型可以独立地进行训练，很容易实现添加或删除一个模态。
  - 聚合
    
    数据集的另一个主要特征是，所提供的观测数据是仅存在数据：在给定位置，我们只知道存在一种物种，而没有完整的物种清单或缺失的物种。团队通过使用一个方格网格，将观察到的物种聚合到该单元格中来解决这个问题。然后，他们以不同的方式使用这些信息：团队将落入其单元格的30个物种进行映射，并将此列表用作新标签。
- rank2 - Matsushita-san
  - 总体概述
    
    解决方案基于深度卷积神经网络（CNN）处理卫星遥感。具体而言，基本模型由两个CNN特征提取器组成（标准的图像分类架构，其最终的全连接分类层被删除）。它们并行运行并处理RS图像的不同部分：第一个接收数据集的RGB部分，第二个接收高度、近红外（NIR）和NDVI（归一化植被指数：（NIR-红）/（NIR+红））的堆栈。
    
    这两个特征提取器并行处理它们各自分配的三通道图像，但不共享参数。它们各自输出相同大小的潜在特征向量，这些向量被串联起来，经过大量的丢弃操作（概率为0.45时效果最好），并通过单个全连接层转换为每个类别的激活。
    
    训练模型使用的是标准的softmax交叉熵损失函数。
  - 使用的方法
    - 模型架构
    团队最初使用了特征提取器分支的ResNet-50，取得了不错的效果，仅通过切换到Inception-v4就获得了近2%的提升。此外，他们还尝试了DenseNet-201（它的表现与ResNet-50相似）和更复杂的架构，如ConvNext和Vision Transformer（ViT B/16），但这两个模型训练时间非常长，且出现了严重的过拟合问题（训练集上的top-30准确率为35%，验证集上为5%）。
    - 预训练
    作者尝试了不同的预训练方法，表现最好的是简单地使用ImageNet预训练的权重。
    - 空间块标签交换
    空间块标签交换通过以下方式放宽严格的单一类要求：
  - 1. 创建一个空间网格，包括小正方形单元（称为“块”）
  - 2. 在训练时期中，对于每个块，将其标签随机交换为该块周围的另一个块的标签
  - 通过该方法可以在模型中引入更多的空间信息，使得模型更好地预测哪些物种可能出现在哪些区域，并且可以更好地处理缺失的数据。
    - 数据增强
    数据增强旨在增加训练数据量并帮助模型更好地泛化。团队使用了许多不同的增强方法，包括旋转、平移、缩放、镜像和颜色抖动。这些方法可以通过对训练数据进行随机变换来扩充数据集，从而提高模型的性能。

关注

13
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Sternstunden CSDN认证博客专家 CSDN认证企业博客

码龄4年

24: 原创

117万+: 周排名

12万+: 总排名

2万+: 访问

: 等级

540: 积分

232: 粉丝

304: 获赞

16: 评论

308: 收藏

私信

关注

热门文章

分类专栏

机器学习 8篇
洛谷 1篇
c++ 1篇
深度学习 5篇
函数 1篇
论文 1篇
竞赛 1篇

最新评论

「深度学习」dropout 技术
CSDN-Ada助手: 非常感谢作者分享关于“深度学习”中dropout技术的博客，这个话题对于我们这些对深度学习感兴趣的人来说确实很有帮助。希望作者能够继续分享更多关于深度学习的知识和经验，可以考虑探讨一些深度学习在实际应用中的案例分析，或者是对于未来深度学习发展方向的个人见解。期待作者更多的精彩作品！
「深度学习」门控循环单元GRU
CSDN-Ada助手: 恭喜您写了第18篇博客！标题「深度学习」门控循环单元GRU」非常吸引人。您的博客内容一直都很有深度，我从中学到了很多关于GRU的知识。您对GRU的解释很清晰，让我更好地理解了它在深度学习中的应用。希望您能继续保持创作的热情，分享更多关于深度学习的知识。或许下一步您可以探讨一些GRU的应用案例，或者与其他深度学习模型进行比较，以便我们更全面地了解GRU在实践中的优势和局限性。感谢您的分享，并期待您未来的创作！
「深度学习」长短时记忆网络LSTM
CSDN-Ada助手: 恭喜您写了第19篇博客！标题《「深度学习」长短时记忆网络LSTM》非常有吸引力。您对LSTM的深入探索令人钦佩。如果我可以提供一个谦虚的建议，那就是在下一篇博客中，您可以尝试探讨LSTM在自然语言处理领域的应用，或许可以进一步拓宽读者的视野。期待您持续创作，不断进步！
「深度学习」循环神经网络RNN
CSDN-Ada助手: 非常感谢作者分享关于「深度学习」循环神经网络RNN的博客，内容十分精彩。恭喜您能够持续创作并分享知识，这对读者来说是一大福音。接下来，我希望您可以考虑写一些关于RNN在实际应用中的案例分析，以及对未来深度学习发展的展望，这样可以让读者更好地理解和应用所学的知识。期待您更多的精彩内容！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。