Ideas For Weakly Supervised Object Localization

最新推荐文章于 2021-05-19 16:48:34 发布

A_bigUncle

最新推荐文章于 2021-05-19 16:48:34 发布

阅读量2.2k

点赞数 7

分类专栏：论文阅读笔记

本文链接：https://blog.csdn.net/A_bigUncle/article/details/98787661

版权

本文探讨了弱监督对象定位的方法，主要基于class activation maps (CAM)技术。通过学习深度特征实现仅使用image-level标签的分类模型，达到与全监督对象定位相似的效果。文章介绍了CAM的工作原理，以及在医疗影像分析中的应用，如使用Log-Sum-Exp Pooling、Attention-based Dropout Layer (ADL)、Iterative Attention Mining (AM)、Dilated Convolution和Self-produced Guidance (SPG)等方法改进定位精度。

摘要由CSDN通过智能技术生成

Ideas For Weakly Supervised Object Localization

最近开始跟着师兄做弱监督学习和医疗影像，近日阅读了几篇文章，与 Object Localization 相关，它们都是基于 Learning Deep Features for Discriminative Localization 这篇文章提出的 class activation maps (CAM)，只使用了 image-level 的图片标注，训练一个分类模型，即可达到与 Fully Supervised Object Localization 媲美的效果。

那么何为 CAM 呢？

CAM

前几年的深度学习模型 AlexNet, VGGNet 和 GoogLeNet 等，在一系列卷积层后接几层的全连接层，这样可以提高分类性能，但这部分却是占了整个模型的大部分参数，同时，全连接层的使用要求模型的输入尺寸需一致，这会带来诸多不便。在这之前，已经有人用 Global Max Pooling 来将最后一层卷积层的输出 $S\in R^{H\times W\times C}$ 统一变换为 $S'\in R^{1\times1\times C}$ ，这样无论输入的尺寸如何，最后的分类层（全连接层）参数都可以统一设置为 $W\in R^{C\times K}$ , $K$ 为总的类别数。而这篇文章中，使用的是 Global Average Pooling，作者提到的优点，咱也不敢问咱也不敢猜，但其主要目的还是能够推导出 class activation maps (CAM)。

记 $f_k(x,y)$ 为最后一层卷积层第 k 个卷积核，则 $F^k=\sum_{x,y}f_k(x,y)$ 为该卷积核的输出。对于类别 c 的 Softmax 输入为 $S_c=\sum_kw_k^cF_k$ ，其中 $w_k$ 是对应 $F^k$

最低0.47元/天解锁文章

A_bigUncle

关注

7
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
Ideas For Weakly Supervised Object Localization

Ideas For Weakly Supervised Object Localization最近开始跟着师兄做弱监督学习和医疗影像，近日阅读了几篇文章，与 Object Localization 相关，它们都是基于 Learning Deep Features for Discriminative Localization 这篇文章提出的 class activation maps (CAM)...
复制链接

扫一扫

专栏目录