Advancing Plain Vision Transformer Toward Remote Sensing Foundation Model

最新推荐文章于 2024-07-17 21:25:38 发布

朝朝暮暮Quake

最新推荐文章于 2024-07-17 21:25:38 发布

阅读量183

点赞数 3

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43578042/article/details/137858903

版权

本文介绍了一种基于约1亿参数的ViT的改进版本，针对遥感任务设计，采用旋转可变尺寸窗口注意力以降低计算和内存负担。实验显示，新模型在DOTA-V1.0数据集上表现出色，且在分类和分割任务中具有竞争力，证明了其在RS领域的潜力和效率

摘要由CSDN通过智能技术生成

大规模视觉基础模型在自然图像的视觉任务中取得了显着进展，其中视觉变换器（ViT）由于其良好的可扩展性和表示能力而成为主要选择。然而，遥感（RS）中的大规模模型尚未得到充分探索。在本文中，我们采用具有约 1 亿个参数的普通 ViT，并首次尝试提出适合 RS 任务的大型视觉模型，并研究此类大型模型的性能。为了处理RS图像中的大尺寸和任意方向的物体，我们提出了一种新的旋转可变尺寸窗口注意力来取代变压器中原来的完全注意力，这可以显着减少计算成本和内存占用，同时通过提取学习更好的对象表示来自生成的不同窗口的丰富上下文。检测任务的实验表明我们的模型优于所有最先进的模型，在 DOTA-V1.0 数据集上实现了 81.24% 的平均精度（mAP）。与现有的先进方法相比，我们的模型在下游分类和分割任务上的结果也显示出具有竞争力的性能。进一步的实验表明了我们的模型在计算复杂性和数据传输效率方面的优势。
在这里插入图片描述

在这里插入图片描述

朝朝暮暮Quake

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Advancing Plain Vision Transformer Toward Remote Sensing Foundation Model

在本文中，我们采用具有约 1 亿个参数的普通 ViT，并首次尝试提出适合 RS 任务的大型视觉模型，并研究此类大型模型的性能。为了处理RS图像中的大尺寸和任意方向的物体，我们提出了一种新的旋转可变尺寸窗口注意力来取代变压器中原来的完全注意力，这可以显着减少计算成本和内存占用，同时通过提取学习更好的对象表示来自生成的不同窗口的丰富上下文。检测任务的实验表明我们的模型优于所有最先进的模型，在 DOTA-V1.0 数据集上实现了 81.24% 的平均精度（mAP）。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。