第六十周学习笔记

第六十周学习笔记

论文阅读概述

  • Cap2Det:Learning to Amplify Weak Caption Supervision for Object Detection: This article exploits whole caption sentences to do weakly supervised object detection by encoding caption to predict ground truth image-level object detection labels with the help of traditional unsupervised object detection supervision.

论文复习

  • Top-down Visual Saliency Guided by Captions回顾
    • 使用high-level来引导low-level的文章
    • 引导的方式很特别,以caption model计算出的词的分布作为gt,然后考察平均视觉特征时仅仅用某个key,对这个分布的影响,用KL散度的大小来度量这个key的重要程度(KL散度大,说明仅仅使用这个key对分布影响大,所以这个key是相对不重要的,KL散度小,说明当前的key里包含了之前生成的分布的重要信息,所以它的重要性大)
    • 本文特别之处就是,即便使用了fc特征(由spatial的特征平均得到),也可以通过计算分布的差别来重构出某个Key的重要程度
  • Boosted Attention: Leveraging Human Attention for Image Captioning回顾
    • 文中提到top-down attention 关注的是non-salient 的背景区域的例子,指出了unsupervised attention的不足之处
    • 文中提到human attention对目标仅仅是局部的关注而非整体的关注
    • 本文用saliency boost image captioning的方法是融合模型原有attention结果和saliency检测结果
  • Paying Attention to Descriptions generated by Image Captioning Models
    • 本文的结论是与人类attention相似的模型有更好的表现,但这里的attention是根据模型生成句子的seq得到,而非attention模型中的权值
    • 本文也用saliency map来boost image captioning,具体的做法就是在language model之前对CNN encode的卷积层特征用saliency map的预测结果进行加权

Coding

鹏城的medical caption api

results

ROI attention模型的部分评估结果
在这里插入图片描述

本周小结

  • 完成了api
  • 完成了ROI attention度量
  • 完成了论文回顾

下周目标

  • 完成ROI attention可视化
  • 读论文>5篇

Appendix(日记)

9月23日TODO

bottom-up模型度量

9月23日小结

未完成,下午开始试图对齐生成的caption数据,结果发现存在很大的问题

9月24日TODO

要做的事情有点多,心态小崩,咸鱼了一天=_=

9月25日TODO

  • 鹏城的api写完

9月25日小结

9月26日TODO

  • 重新建立baseline
  • 检查数据分布
  • 减少checkpoint间隔

9月26日小结

  • Top-down Visual Saliency Guided by Captions回顾
    • 使用high-level来引导low-level的文章
    • 引导的方式很特别,以caption model计算出的词的分布作为gt,然后考察平均视觉特征时仅仅用某个key,对这个分布的影响,用KL散度的大小来度量这个key的重要程度(KL散度大,说明仅仅使用这个key对分布影响大,所以这个key是相对不重要的,KL散度小,说明当前的key里包含了之前生成的分布的重要信息,所以它的重要性大)
    • 本文特别之处就是,即便使用了fc特征(由spatial的特征平均得到),也可以通过计算分布的差别来重构出某个Key的重要程度
  • Boosted Attention: Leveraging Human Attention for Image Captioning回顾
    • 文中提到top-down attention 关注的是non-salient 的背景区域的例子,指出了unsupervised attention的不足之处
    • 文中提到human attention对目标仅仅是局部的关注而非整体的关注
    • 本文用saliency boost image captioning的方法是融合模型原有attention结果和saliency检测结果
  • 结果v1

9月27日TODO

  • ROI attention

9月27日小结

  • Paying Attention to Descriptions generated by Image Captioning Models
    • 本文的结论是与人类attention相似的模型有更好的表现,但这里的attention是根据模型生成句子的seq得到,而非attention模型中的权值
    • 本文也用saliency map来boost image captioning,具体的做法就是在language model之前对CNN encode的卷积层特征用saliency map的预测结果进行加权
  • 完成了对部分bu模型的评估
  • 读了这个礼拜唯一的一篇论文=_=
  • 结果v2
  • ROI attention 未完成

9月28日TODO

  • 完成v3(specific word threshold and cider optimization)
  • 完成ROI attention的可视化

9月28日小结

  • cider效果不好
  • ROI未完成
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值