论文阅读 CVPR2022《Rethinking Semantic Segmentation：A Prototype View》

咯吱咯吱咕嘟咕嘟

已于 2022-08-13 11:26:51 修改

阅读量2.7k

点赞数 15

分类专栏：精读AI论文系列文章标签：深度学习人工智能学习原型模式

于 2022-08-13 11:25:54 首次发布

本文链接：https://blog.csdn.net/weixin_41469023/article/details/126316853

版权

精读AI论文系列专栏收录该内容

3 篇文章 2 订阅

订阅专栏

回顾一下语义分割，其实可以分为两种。一种是参数化的softmax投射，另一种是部分transformer的方法——query based的方法。

再回到论文的题目关于prototype的类似定义，可参考18年一篇图像分类的工作。

文中作者一直强调关于一张图片里的像素投射的embedding space的结构是缺乏关注的，这个思想在他去年的一项工作里就有涉及，他提出了一个insight的问题，如下图红字。

因此，基于这个well-structured embeddings space和投射头的参数这两个motivations，作者提出了本文的方法。下面具体来看方法的内容（提醒一下：PPT所展示的内容有限，具体还是推荐去看看原文。）

对于每个像素 i 会计算与所有portotype之间的相似度，选取跟像素i最相近的prototype。这个prototype对应的类别就是像素对应的类别。在网络训练过程中，可以计算每个 i 在c个类别上的概率分布，然后我们用交叉熵损失来进行网络的训练，但交叉熵损失的有缺陷的，只考虑了pixel和class之间的关系，没有考虑和proto之间的关系，也就是只保证了类间的分散，没有保证类内的紧凑。

接下来首先介绍在线聚类的算法，基于在线聚类结果，介绍提出的两个新的metric learning 的训练目标。

聚类是对每个类别单独进行的处理，前两个约束保证每个c类内的像素点只能匹配到一个prototype，第三个约束是鼓励所有的像素点均匀匹配到各个prototype，避免许多个像素点几乎都匹配到同一个prototype上了。此外作者还为了快速求解矩阵运算，对式子做了一定松弛，不具体解释了。

前面提到了，交叉熵损失着眼的是类间inter-class，设计的ppc则是在同一个类内，不同prototype之间的分散，再来一个ppd损失，着眼于同一个簇内，像素点与prototype的紧凑性优化.

comment：

因为我现在刚刚起步阅读论文，读的书还比较少，读了这篇论文之后的一个感悟是，或许一项工作不一定要有惊人的改动，改进才算好工作吧（看了李沐老师对于novelty的理解）？能感受到作者是在循序渐进的思考一些东西，而且感觉很本质诶？很厉害。。一开始粗读的时候感觉整个方法很朴实无华，但整个读下来又感觉能想到从embedding space角度以及用统一的视角去找到相通之处，其实好难啊。这篇工作拿到了oral，应该是有他的价值存在的，只是现在的我还体会不够深？这种对于性能提升较有贡献的改进，或许能在实际应用、比赛中发挥更多价值？值得学习。。

最后，PS：

每次论文阅读分享要做PPT，真的特别损伤元气orz，不过也确实督促我更好更仔细的去阅读每一个细节了，尽量把不懂的地方弥补清楚。别看ppt看起来觉得论文思路非常简单清晰，但感觉这真的是一个拆炸弹的过程，需要耐心、反复，自己搞懂了逻辑，才敢给大家分享。。。疲惫.jpg

希望自己能越来越游刃有余！~

一起讨论学习呀

咯吱咯吱咕嘟咕嘟

关注

15
点赞
踩
16

收藏

觉得还不错? 一键收藏
6
评论
论文阅读 CVPR2022《Rethinking Semantic Segmentation：A Prototype View》

流行的语义分割解决方案，尽管它们有不同的网络设计（基于 FCN 或基于注意力）和掩码解码策略（基于参数 softmax 或基于像素查询），但可以通过将 softmax 权重或查询向量视为可学习类原型来归为一类。鉴于这种原型观点，本研究揭示了这种参数分割方案的几个局限性，并提出了一种基于不可学习原型的非参数替代方案。我们的模型不是以前的方法以完全参数化的方式为每个类学习单个权重/查询向量，而是将每个类表示为一组不可学习的原型，仅依赖于该类中几个训练像素的平均特征。因此，通过检索非参数最近原型来实现密集预测。这
复制链接

扫一扫

专栏目录