Ideas For Weakly Supervised Object Localization

本文探讨了弱监督对象定位的方法,主要基于class activation maps (CAM)技术。通过学习深度特征实现仅使用image-level标签的分类模型,达到与全监督对象定位相似的效果。文章介绍了CAM的工作原理,以及在医疗影像分析中的应用,如使用Log-Sum-Exp Pooling、Attention-based Dropout Layer (ADL)、Iterative Attention Mining (AM)、Dilated Convolution和Self-produced Guidance (SPG)等方法改进定位精度。
摘要由CSDN通过智能技术生成

Ideas For Weakly Supervised Object Localization

最近开始跟着师兄做弱监督学习和医疗影像,近日阅读了几篇文章,与 Object Localization 相关,它们都是基于 Learning Deep Features for Discriminative Localization 这篇文章提出的 class activation maps (CAM),只使用了 image-level 的图片标注,训练一个分类模型,即可达到与 Fully Supervised Object Localization 媲美的效果。

那么何为 CAM 呢?

CAM

前几年的深度学习模型 AlexNet, VGGNet 和 GoogLeNet 等,在一系列卷积层后接几层的全连接层,这样可以提高分类性能,但这部分却是占了整个模型的大部分参数,同时,全连接层的使用要求模型的输入尺寸需一致,这会带来诸多不便。在这之前,已经有人用 Global Max Pooling 来将最后一层卷积层的输出 S ∈ R H × W × C S\in R^{H\times W\times C} SRH×W×C 统一变换为 S ′ ∈ R 1 × 1 × C S'\in R^{1\times1\times C} SR1×1×C,这样无论输入的尺寸如何,最后的分类层(全连接层)参数都可以统一设置为 W ∈ R C × K W\in R^{C\times K} WRC×K, K K K 为总的类别数。而这篇文章中,使用的是 Global Average Pooling,作者提到的优点,咱也不敢问咱也不敢猜,但其主要目的还是能够推导出 class activation maps (CAM)。

f k ( x , y ) f_k(x,y) fk(x,y) 为最后一层卷积层第 k 个卷积核,则 F k = ∑ x , y f k ( x , y ) F^k=\sum_{x,y}f_k(x,y) Fk=x,yfk(x,y) 为该卷积核的输出。对于类别 c 的 Softmax 输入为 S c = ∑ k w k c F k S_c=\sum_kw_k^cF_k Sc=kwkcFk,其中 w k w_k wk 是对应 F k F^k F

  • 7
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值