EM-adapt [ICCV15]

最新推荐文章于 2019-11-18 09:43:48 发布

mutou_cly

最新推荐文章于 2019-11-18 09:43:48 发布

阅读量224

点赞数

分类专栏： CV 文章标签： weakly supervised semantic segmentation

本文链接：https://blog.csdn.net/mutou_cly/article/details/89816321

版权

CV 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

弱监督语义分割(weakly supervised semantic segmentation 下称W3S)

EM-Adapt

paper: Weakly-and semi-supervised learning of a DCNN for seman- tic image segmentation.

是ICCV15的文章，EM指Expectation-Maximization(期望最大化)。在更早期的工作中，W3S的解决思路是基于multi-instance learning(MIL)，结合MCG等推荐算法给出候选区域在验证的思路，即propose-verify模式，RCNN系列也是类似的思路~。
文章将W3S理解为一个最大化数学期望的求解问题。输入图像 $x$ ，已知图像 $x$ 的类别标签 $z$ ，求解图像上每个像素 $m$ 的类别 $y_m$ ，使得最终的联合分布： $P (x, y, z) = P (x) * P (y ∣ x) * P (z ∣ x)$ 最大，其中 $P (x)$ 为1不用关心， $P(y|x)=\prod_{m=0}^MP(y_m|x)$ ，可得:

$arg \max_y P(x,y,z)=\arg \max_y P(x)*P(y|x)*P(z|x)$
$arg \max_y \log P(x,y,z)$
$arg \max_y \log P(y|x)+\log P(z|x)$
$=\arg \max_y \sum_{m=0}^M\log P(y_m|x)+\log P(z|y)$

文章提出了两个版本的EM：EM-fixed和EM-adapt。两个算法在求解 $P(y_m|x)$ 部分相同，区别在于 $P(z|y_m)$ 的设计。
$log P(y_m|x)$ 也是就是DCNN的输出，输入图像 $x$ ，经过深度卷积输出 $L$ 张score maps， $L$ 为前景类别数量。对于score maps上位置 $m$ 的 $L$ 维向量，记作 $y_m$ 。

$P (z ∣ y)$ of EM-Fixed

定义 $P(z|y)=\sum_{m=0}^M \phi (y_m,z)$
其中 $\phi(y_m=l,z)\begin{cases}b_l & if z_l=1 \\ 0& if z_l=0\end{cases}$
其实就是对应DCNN输出的score maps，对于 $y_m$ 向量的第 $l$ 的值 $y_m[l]$ ，如果图像 $x$ 中确实有 $l$ 类别，则在其值上加上偏置 $b_l$ ，这一操作使得score maps上对应 $z$ 中存在的类别的map，值进行了增加，至此，我们就完成了 $log P(y_m|x)+\log P(z|y)$ 。
PS：fixed在此处指的就是固定 $b_l$ 的大小，对于背景 $b_0=5$ ，对于前景 $b_l=3(l>0)$ 。

$P (z ∣ y)$ of EM-Adapt

考虑fixed版本，固定 $b_l$ 的大小值得商榷，因为对于不同的图像，我们应该制定不同的偏置 $b_l$ 。这也是adapt的出发点。
考虑对于输入图像 $x$ ，类别标签集合 $z$ ，按照上文中的方法，将 $x$ 输入到DCNN中得到了 $L$ 张score maps，加上可变的偏置 $b_l$ ，使得将 $L$ 张score maps经过 $\arg \max$ 后融合得到的一张score map中，背景区域至少占到40%，每个类别区域至少占到20%。同时，直接禁止输出不存在 $z$ 中的类别。

performance

VOC12 val(IOU)	VOC 12 test(IOU)
33.8	39.6

summary

所以本文的思路概括起来就是，原始图像经过DCNN得到score map，对于存在的类别，在其对应的map上增加偏置以鼓励DCNN预测出该类，而对于不存在的类别，不增加偏置以鼓励DCNN不识别出这些类别。
本文与之前常规的MIL的做法相比优点在于不会聚焦于most distinguish的区域(CAM也有这个问题)，而是会兼顾物体的所有部位。

mutou_cly

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
EM-adapt [ICCV15]

弱监督语义分割(weakly supervised semantic segmentation 下称W3S)EM-Adaptpaper: Weakly-and semi-supervised learning of a DCNN for seman- tic image segmentation.是ICCV15的文章，EM指Expectation-Maximization(期望最大化)...
复制链接

扫一扫