Show and Tell Lessons learned from the 2015 MSCOCO Image Captioning Challenge论文及tensorflow源码解读

本文详细解读了2015年MSCOCO图像caption挑战赛的论文《Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge》,介绍了基于CNN和LSTM的图像描述模型。论文指出,通过CNN提取图像特征,LSTM生成句子,利用序列到序列学习方法最大化p(S|I)。源码解析部分涵盖了数据预处理、模型构建和评估。重点讨论了模型的构建,包括图像解码器、基于LSTM的句子生成器,以及采样和束搜索的推理策略。
摘要由CSDN通过智能技术生成

Show and Tell Lessons learned from the 2015 MSCOCO Image Captioning Challenge论文及tensorflow源码解读

1 论文

“Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge.”

Full text available at: http://arxiv.org/abs/1609.06647

1.1 Model Overview

文章目的

用英文来描述图片内容

Indeed, a description must capture not only the objects contained in an image, but it also must express how these objects relate to each other as well as their attributes and the activities they are involved in. Moreover, the above semantic knowledge has to be expressed in a natural language like English, which means that a language model is needed in addition to visual understanding.

最大化 p(S|I) , Si 代表句子中单词, I 代表图片(image)

本质:
sequence to sequence learning

Model

模型

概述:通过CNN提取图片特征,使用LSTM在每一个时间点产生一个word

目标函数:
θ=argmaxθ(I,S)logp(S|I,θ)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值