[论文笔记]ethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

最新推荐文章于 2024-07-25 15:11:29 发布

溜溜菌

最新推荐文章于 2024-07-25 15:11:29 发布

阅读量153

点赞数

文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_62971531/article/details/127087647

版权

整体网络结构

如下图,模型本质上是一个ViT+Decoder结构。

文中提出了三种decoder的设计:

a.将Transformer输出的特征维度降到分类类别数后经过双线性上采样恢复原分辨率。

b.交替使用卷积层和两倍上采样操作。为了从H/16 × W/16 × 1024 恢复到H × W × 19(19是cityscape的类别数) 需要4次操作,以恢复到原分辨率。

c. 首先将Transformer的输出{Z1,Z2,Z3…ZLe}均匀分成M等份,每份取一个特征向量。如下图,24个transformer的输出均分成4份,每份取最后一个,即{Z6,Z12,Z18,Z24} .后面的Decoder只处理这些取出的向量。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
[论文笔记]ethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

均匀分成M等份,每份取一个特征向量。如下图,24个transformer的输出均分成4份,每份取最后一个,即。a.将Transformer输出的特征维度降到分类类别数后经过双线性上采样恢复原分辨率。(19是cityscape的类别数) 需要4次操作,以恢复到原分辨率。如下图,模型本质上是一个ViT+Decoder结构。.后面的Decoder只处理这些取出的向量。b.交替使用卷积层和两倍上采样操作。c. 首先将Transformer的输出。
复制链接

扫一扫

溜溜菌 CSDN认证博客专家 CSDN认证企业博客

码龄3年

3: 原创

166万+: 周排名

215万+: 总排名

598: 访问

: 等级

31: 积分

1: 粉丝

0: 获赞

4: 评论

0: 收藏

私信

关注

热门文章

最新评论

vscode+mingw64 C语言环境配置
CSDN-Ada助手: 恭喜您写了第三篇博客！标题“vscode+mingw64 C语言环境配置”听起来非常有趣。您的博客内容对于那些想要配置C语言环境的人来说将会非常有帮助。我希望您能继续保持这样的创作热情！如果我可以提供一些建议的话，我建议您可以考虑分享一些常见问题和解决方案，或者深入研究一些高级配置选项。这样的话，读者们会更加受益，并且您也能继续扩展自己的知识。谢谢您的分享，期待您未来更多的博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
[论文笔记]ethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34 给我们提。
pytorch学习笔记
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。