第四十周学习笔记

第四十周学习笔记

论文阅读

内容概述

  • Show and Tell: A Neural Image Caption Generator
    • 提出了image caption 的 cnn encoder + rnn decoder的基本形式
  • Deep Visual-Semantic Alignments for Generating Image Descriptions
    • 目标变为生成caption及其对应的region
    • 图像由RCNN提供的proposal编码成多个feature,inference时的region也由RCNN生成
    • 利用弱标签生成强标签供模型学习,思想是对应的image和sentence的region和word之间的match程度强于不对应的image和sentence,在此基础上以margin loss作为目标学习,拉高对应数据的match得分,拉低不match的得分
  • Image Captioning with Semantic Attention
    • 使用attention将图像的CNN feature和Attribute detector检测到的属性词综合到一起作为decoder的输入,前者是top-down的方法,后者是bottom-up的方法,从而结合了两个方法的优点
    • Attribute detector,可以利用网上大量的有tab的数据,用CNN编码先把图片编码成向量,然后利用最近邻算法得到图像所包含的属性,或者用神经网络在数据集上学习
    • 利用input attention 和output attention来综合第一步提取到的信息
    • 对attention作了正则化,让加权向量分布具有完备性和差异性
  • Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
    • image feature从卷积层中提取针对不同spatial position的feature,是一个向量集合而不是单个向量
    • lstm的初始状态通过MLP学习得到
    • Attention机制分为hard和soft两种,加权到不同spatial position的feature上
  • Auto-Encoding Scene Graphs for Image Captioning
    • 将language inductive bias 融合到了image caption中,通过重建sentence学习字典完成
    • 使用scene graph利用抽象符号推理出caption
    • 生成的caption表达形式更好,模型对语言有很好的理解

提及的数据集

  • PASCAL xfer
  • Flickr30k:包括31783张由总计158915个caption标注的图片,数据集作者在此基础上创建了denotation graph
    在这里插入图片描述
  • Flickr8k
  • SBU
  • MSCOCO2014:微软提供的一个可以做recognition,segmentation,captioning 的数据集
    在这里插入图片描述

提及的Metric

  • BLEU
  • METEOR
  • CIDER
  • Recall@K
  • median rank
  • ROUGE ↑

模型对比

MS-COCO2014

模型时间BLEU1BLEU2BLEU3BLEU4METEORCIDEr
NIC2015---27.723.785.5
Deep visual201562.545.032.123.019.566.0
Soft-Attention201670.749.234.424.323.90
Hard-Attention201671.850.435.725.023.04
ATT-FCN201670.953.740.230.424.3
S G A E f u s e SGAE_{fuse} SGAEfuse201881.0--39.028.4129.1(-D)

Flickr30k

模型时间BLEU1BLEU2BLEU3BLEU4METEOR
NIC2015-----
Deep visual201557.336.924.015.7-
Soft-Attention201666.743.428.819.118.49
Hard-Attention201666.943.929.619.918.46
ATT-FCN201664.746.032.423.018.9
SGAE2018-----

问题

为什么不同论文里面NIC的metric不一样?
NIC没有给MSCOCO的BLEU2~3以及flick30k上的结果,为什么别的论文里有?

下周计划

  • 读完基础论文
  • 跑通Bottom-up…的代码
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值