论文阅读--GroupViT

__如果

于 2024-05-24 15:43:26 发布

阅读量319

点赞数 5

文章标签：论文阅读人工智能深度学习 CLIP 多模态

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73202283/article/details/139175674

版权

视觉之前做无监督分割的时候，经常使用grouping方法：如果有一些聚类的中心点，从这写点开始发散，把周围相似的点逐渐扩充成一个group，这个group就相当是一个segmentation mask

右边是grouping block，左边的两个层之间的小东西表示可学习的group tokens，目的是想要模型在初始学习的时候能慢慢的把相邻的像素点group起来，变成一个又一个的segmentation mask

可以看到浅层时的group token分割效果还不是很好，但经过transformer layers和grouping block的学习，深层的group token的分割效果很好

输入来自原始图像的patch embedding和group tokens，group token的第一维代表聚类中心数量

group token可以理解为cls token，它想要代表整个图片，为什么多个token而不像cls token就一个，是因为分割有很多目标类别

transformer layers将patch embedding与group tokens联系起来

经过一些transformer之后，认为group token学得差不多了，聚类中心也学得差不多了，这时候利用grouping block将group token尝试合并成更大的group，学到一些更有语义的信息；另一个好处是它变相的把序列长度降低了

grouping block先利用类似自注意力的方式，计算量一个相似度矩阵，然后用这个相似度矩阵帮助原来的image token做一些聚类中心的分配，从而把image token降维到group token的维度；做聚类中心分配的过程不可导，所以用了gumbel softmax的trick

训练过程通过对比学习的loss，文本经过text encoder得到文本特征，但是图像经过group

token、group merging得到的是一个序列，第一维是聚类中心个数，第二位是深度，为了把序列的特征融合成整个图像的特征，使用平均池化，然后对比学习

背景类通过设置阈值来区分，这是CLIP的的局限性，背景类太抽象了，可以代表很多很多类

图片喂给GroupViT，文本喂给text encoder，对比学习计算相似度

聚类中心个数是超参数，需要人工设定，作者实验发现8个的效果最好，此时分割最多检测到8类

由图可知，group token确实起了作用

stage1的第五个token代表眼睛，第三十六个token代表四肢，且面积较小，因为此时未经过grouping block，聚类中心多

stage2中明显看到聚类中心减少后，token表示范围增大，且每个token代表不同类别

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文阅读--GroupViT

右边是grouping block，左边的两个层之间的小东西表示可学习的group tokens，目的是想要模型在初始学习的时候能慢慢的把相邻的像素点group起来，变成一个又一个的segmentation mask。token、group merging得到的是一个序列，第一维是聚类中心个数，第二位是深度，为了把序列的特征融合成整个图像的特征，使用平均池化，然后对比学习。聚类中心个数是超参数，需要人工设定，作者实验发现8个的效果最好，此时分割最多检测到8类。由图可知，group token确实起了作用。
复制链接

扫一扫

__如果 CSDN认证博客专家 CSDN认证企业博客

码龄2年

137: 原创

73万+: 周排名

1万+: 总排名

31万+: 访问

: 等级

2954: 积分

1381: 粉丝

1537: 获赞

49: 评论

1503: 收藏

私信

关注

热门文章

最新评论

论文阅读--Cross-view Transformers for real-time Map-view Semantic Segmentation
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
工业AIoT竞赛流程
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619050887。
深度学习笔记1
肆无忌惮..: 哈，刚系统学完机器学习就来看看佬的博客，真是一条神奇的天路哇
Building Systems with the ChatGPT API
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618874955。
Prompt Engineering
Otonal364: 优质好文！想学prompt很久了，一致没找到全面一点的教程

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。