【新手也能读懂的超详细论文解读】Show and Tell: A Neural Image Caption Generator

Show and Tell: A Neural Image Caption Generator

前言(与论文无关)

最近事情比较多,除了考试还有导师布置的任务,还有几门考试,当然还要花时间打游戏,所以呢没有时间每天都更新。不过我还是希望不要颓废,这个定时看论文写笔记的习惯要好好保持。那就决定以后每周会固定更新两篇,空闲时间多的话会再多写。封锁在学校里最大的影响就是没法练琴了,啊啊啊啊好想谈琴啊!!!

简介

这同样是cvpr 2015的一篇文章,也是师姐叮嘱专门读的一篇。这篇读完可以算是对图像描述这个方向有个大体的了解,里面所使用的编码-解码的结构甚至到现在都是很实用的,后来的大多数这方面的文章都是在该模型的基础上进行的优化改良。

文章开篇就讲,这篇论文将最近比较火的计算机视觉和机器翻译两个领域融合起来,从而有了这个模型。图像描述比目标检测和图像分类更加难一点,因为好的描述不仅仅要抓住图像中的客观物体,更要表述出这些目标之间的关系。不仅如此,还得考虑语义,不同的语言还得考虑语法。

那个时候现有的办法都是讲解决上述每个子问题的方法合在一起来生成图像描述,而这篇论文则首次提出用一个模型来解决所有的问题,俗称一步到胃(狗头)。

这篇论文的几个创新点(原文):

  • First, we present an end-to-end system for the problem. It is a neural net which is fully trainable using stochastic gradient descent.
    提出了一个 Neural Image Caption(NIC)模型来生成图像描述&

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>