零样本语义分割总结（Zero shot semantic segmentation）

最新推荐文章于 2024-06-24 11:00:47 发布

DeepWWJ

最新推荐文章于 2024-06-24 11:00:47 发布

阅读量4k

点赞数 3

分类专栏： zero shot 文章标签：深度学习人工智能计算机视觉

本文链接：https://blog.csdn.net/qq_21157073/article/details/108155678

版权

1 篇文章 1 订阅

订阅专栏

基于映射方式

在这里插入图片描述

关键点：transductive learning（在训练过程中source images和target images都会被使用到）
在这里插入图片描述

上图中source data和target data都输入到FCN网络中，通过FCN网络将source data和target
data映射到语义空间中，得到一个（H，W，d）的F（x），其中H，W分别为原始图片的高和宽，d为类别词向量的维度
然后对F（x）中每个像素计算其与语义空间中类别向量的相似度，并softmax得到分类结果

损失函数：
source data的损失主要学习视觉特征与语义特征之间的关系，target data的损失主要防止模型结果过多的偏向source
- 对于source data的损失函数：
- 对于target data的损失函数：对target data中的每个像素点计算其属于target类中所有类别概率和的损失。即其只要属于target domain的概率大就行

关键点：基于attribute预测

缺点：一张图像中只能有一个物体，其实总结来说，就是一个zero shot的物体分类，外加了一个Mask过滤

在这里插入图片描述

关键点：生成网络不使用随机噪声，而是CM模块生成的上下文相关编码
在这里插入图片描述

E网络提取特征，并且诶使用CM模块提取图片的上下文编码
将图片的class embedding 和 CM 模块的编码输入到生成网络中，生成fake sample
D用来判断real sample和fake sample，C对生成的fake sample 完成分类，最后达到的效果是G可以根据输入的class embedding + 随机噪声生成视觉特征
使用seen class+ unseen class+ 随机噪声生成的样本训练C，使C能够识别seen与unseen

关键点：增加word embedding的多样性
在这里插入图片描述

关注

专栏目录