《PolyFormer: Referring Image Segmentation as Sequential Polygon Generation》论文模型解读

最新推荐文章于 2024-07-10 11:32:19 发布

errorwarn

最新推荐文章于 2024-07-10 11:32:19 发布

阅读量1.4k

点赞数 18

文章标签：人工智能深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/errorworn/article/details/136417021

版权

论文作者为RIS(Referring Image Segmentation)和REC(Referring Image Segmentation)引入了一个新的架构，称为PolyFormer。此模型不是直接预测分割掩码，而是一次产生边界框的角点和所预测实列的多边形顶点。是一种seq2seq的模型。

摘要由CSDN通过智能技术生成

整体框架

论文作者为RIS(Referring Image Segmentation)和REC(Referring Image Segmentation)引入了一个新的架构，称为PolyFormer。此模型不是直接预测分割掩码，而是一次产生边界框的角点和所预测实列的多边形顶点。是一种seq2seq的模型。

下图为PloyFormer的整体框架：

首先使用视觉编码器和文本编码器分别提取图像和文本特征，然后将其投影到共享嵌入空间中。接下来，将图像和文本特征连接起来，并将它们输入多模态transformer编码器。最后，基于回归的transformer解码器利用编码特征，以自回归的方式输出连续浮点边界框角点和多边形顶点。对应的分割掩码即是多边形所包围的区域。

如何表示多边形序列和边界框角点

首先由一个或多个(可能被遮挡)多边形来描述所引用的对象，将多边形参数化为二维顶点{(xi, yi)}的序列K i=1， (xi, yi)∈r2，按顺时针顺序。选择最接近图像左上角的顶点作为序列的起点，如下图：

为了表示多个多边形，在两个多边形之间引入分隔符<SEP>。使用<BOS>和<EOS>指示序列的开始和结束。

边界框的坐标表示为左上角坐标和右下角坐标，边界框和多个多边形的坐标的连接方式如下：

前两个坐标是边界框角点，剩下的是多个多变形顶点序列。

图像和文本特征提取

图像编码器

使用Swin Transformer的第4阶段的编码特征作为视觉表示,输入图片为

最低0.47元/天解锁文章

关注

18
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
《PolyFormer: Referring Image Segmentation as Sequential Polygon Generation》论文模型解读

论文作者为RIS(Referring Image Segmentation)和REC(Referring Image Segmentation)引入了一个新的架构，称为PolyFormer。此模型不是直接预测分割掩码，而是一次产生边界框的角点和所预测实列的多边形顶点。是一种seq2seq的模型。
复制链接

扫一扫

errorwarn CSDN认证博客专家 CSDN认证企业博客

码龄4年

14: 原创

137万+: 周排名

7万+: 总排名

1万+: 访问

: 等级

348: 积分

111: 粉丝

192: 获赞

9: 评论

161: 收藏

私信

关注

热门文章

分类专栏

个人笔记 1篇

最新评论

《Bilateral Knowledge Interaction Network for Referring Image Segmentation》论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
《Improving Referring Image Segmentation usingVision-Aware Text Features》论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
《Area-keywords cross-modal alignment for referring image segmentation》“区域-关键字”跨模态对齐框架
CSDN-Ada助手: 恭喜作者发布了《Area-keywords cross-modal alignment for referring image segmentation》这篇博客，探讨了“区域-关键字”跨模态对齐框架的相关内容，内容十分有深度和启发性。希望作者能够继续保持创作的热情和努力，不断探索前沿领域的研究，为学术界带来更多的创新思路和成果。建议在下一步的创作中，可以结合实际案例或者应用场景，更好地展示框架的有效性和实用性，让读者能够更直观地理解和应用您的研究成果。期待您更多的精彩作品！
Referring Image Segmentation Using Text Supervision（论文笔记）
im just me: 你好，想请教一下您，为什么在有了正样本的相应图后，还要对其他负样本的响应图一起去进行一个最佳响应图选择呢？最好的响应图不就是在对正样本的响应吗？
什么是alpha mattes（阿尔法通道图层）
CSDN-Ada助手: 恭喜你写了第12篇博客！阿尔法通道图层的介绍很详细，让我对它有了更深入的了解。希望你能继续分享更多关于图像处理的知识，或许可以考虑介绍一些实际应用案例，或者深入分析一些相关技术的发展趋势。期待你的下一篇文章！祝你创作顺利！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。