论文笔记:Skeleton Key_Image Captioning by Skeleton-attribute Decomposition

Skeleton Key: Image Captioning by Skeleton-Attribute Decomposition

这篇文章的作者提出,人类认识图的过程,应该是先定位图片的位置和他们的关系,然后才是详尽的说明物体的属性。这篇文章基于此设计了一种coarse-to-fine的方法,首先生成skeleton sentence,然后生成相应的属性短语,最后将这两部分合成完整的caption。整个流程如下图所示。

1. Skeleton-Attribute分解

借助斯坦福的句法分析器,将句子进行剖析,拿出简要结构(skeleton sentence),以及每一部分对应的属性短语(attribute phrase)。如上图,首先取出最底层的NP结构,分别是piggy bank和black bowtle。然后将最后一个词作为skeleton sentence的要素,这个词前面的部分作为修饰部分。最底层除NP结构以外的部分则留在skeleton中。因此得到skeneton sentence为:bank with bowtle。

2. Skel-LSTM

这部分使用的就是soft-attention机制,具体如下:

需要指出的是, 需要用在下文的属性短语生成中。

3. Attr-LSTM

这里就是简单的encoder-decoder结构。因为属性的生成,取决于上文的 (图片信息),以及skeleton sentence中生成的当前词语 以及对应的历史信息 。因此encoder的向量为以下向量,并作为第一个词输入;

但是,因为 是是在skeleton sentence生成词语之前生成的信息,现在这个词语已经生成,可以对 进行修正,使视觉信息更加准确。

调整方式如下:

Skel-LSTM网络下,在T时刻输入 生成时,输出为每个词的概率分布 =(p1,p2,…,pQ),其中Q对应的是词典的大小。由公式(2)可知, 其实就是T时刻各个视觉块 通过加权得到的,这里将每一个视觉块vij 分别输入到skel-LSTM网络中得到分布 。纠正 ,公式如下:

 

参考文献:

Wang Y, Lin Z, Shen X, et al. Skeleton Key: Image Captioning by Skeleton-Attribute Decomposition[C]// Computer Vision and Pattern Recognition. IEEE, 2017:7378-7387.

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值