Show, Attend and Tell: Neural Image Caption Generation with Visual Attention



 动机: 以前的工作都是只关注图像一次,然后使用最后一层的全连接层得到图像最有用的信息。这样的缺点就是在描述图像的时候丢失了很多有用的信息。而且,产生每个词用到的图像信息都是相同的。因此,在这篇论文中考虑到使用一些低等级的信息来获取更多的描述信息。这个工作使用了attention的机制,在生成相应词的时候只关注一些显著的特征。而且attention机制可以使我们了解到每一步模型在关注哪些内容。


一个attention模型,有一些输入,有一个上下文向量c,返回一个给每个输入一定权重的均值(权重是根据输入和上下文选择的)
如何做的:
在encoder阶段,用cnn较低层的卷积层作为图像特征,其中卷积保留了图像空间信息,在decoder阶段,结合着attention机制,动态的选择图像的特征空间用于decoder阶段。
在decoder阶段,输入增加了图像上下文向量,该向量是当前时刻图像的显著区域的特征表达。同时这篇论文提出了hard 和 soft两种机制,soft机制给权重加了限制,希望对每一个部分是同等对待的。


贡献:
soft 机制: 在看的时候考虑到了所有的输入,并且并不是给每一个输入相同的权重,而是更关注于某些输入。好处是完全可导。为什么呢,因为权重的取值取决于此时的query 和 token表示的相似度。我们可以在一个向量空间内表示她们并且计算相似度。但由于把能考虑的都考虑了进来,导致soft 的方式牺牲了效率。
hard机制:每一次只考虑一个特定的输入。 虽然更加scalable 和 有效了,但是不可微了。为什么不可微了呢?因为在训练的时候,我们不知道每一步我们应该关注哪里,即我们不能够给传经网络正确的答案,事实上也没有正确的答案,那么我们怎么训练网络参数呢?神经网络的训练需要有一个可微的损失函数的。但是在这种情况下,我们不知道下一步应该看哪里,那么我们如何定义损失函数呢。此时,我们需要强化学习了。


参考: https://blog.heuritech.com/2016/01/20/attention-mechanism/
          http://stackoverflow.com/questions/35549588/soft-attention-vs-hard-attention



  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
本课程适合具有一定深度学习基础,希望发展为深度学习之计算机视觉方向的算法工程师和研发人员的同学们。基于深度学习的计算机视觉是目前人工智能最活跃的领域,应用非常广泛,如人脸识别和无人驾驶中的机器视觉等。该领域的发展日新月异,网络模型和算法层出不穷。如何快速入门并达到可以从事研发的高度对新手和中级水平的学生而言面临不少的挑战。精心准备的本课程希望帮助大家尽快掌握基于深度学习的计算机视觉的基本原理、核心算法和当前的领先技术,从而有望成为深度学习之计算机视觉方向的算法工程师和研发人员。本课程系统全面地讲述基于深度学习的计算机视觉技术的原理并进行项目实践。课程涵盖计算机视觉的七大任务,包括图像分类、目标检测、图像分割(语义分割、实例分割、全景分割)、人脸识别、图像描述、图像检索、图像生成(利用生成对抗网络)。本课程注重原理和实践相结合,逐篇深入解读经典和前沿论文70余篇,图文并茂破译算法难点, 使用思维导图梳理技术要点。项目实践使用Keras框架(后端为Tensorflow),学员可快速上手。通过本课程的学习,学员可把握基于深度学习的计算机视觉的技术发展脉络,掌握相关技术原理和算法,有助于开展该领域的研究与开发实战工作。另外,深度学习之计算机视觉方向的知识结构及学习建议请参见本人CSDN博客。本课程提供课程资料的课件PPT(pdf格式)和项目实践代码,方便学员学习和复习。本课程分为上下两部分,其中上部包含课程的前五章(课程介绍、深度学习基础、图像分类、目标检测、图像分割),下部包含课程的后四章(人脸识别、图像描述、图像检索、图像生成)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值