image caption
请设置你的昵称
这个作者很懒,什么都没留下…
展开
-
Image Caption(一) 论文及理解
准备开始读一下Image Caption,先记录一下对论文的理解,一些公式没有记录下来,在论文中可查。目录1.Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation1. Introduction2.RNN Encoder-Decoder3.Stat...原创 2018-11-20 19:10:29 · 2269 阅读 · 0 评论 -
Image Caption(三) 一些补充
构建LSTM模型:#定义一个LSTM_celllstm_cell = rnn.BasicLSTMCell( hidden_size, forget_bias = 1.0, state_is_tuple = True )lstm_cell = rnn.DropoutWrapper( cell = lstm_cell, inpu...原创 2018-11-24 11:52:50 · 222 阅读 · 0 评论 -
Image Caption(二) 论文阅读及测试代码
论文为Deep Visual-Semantic Alignments for Generating Image Descriptions,是李飞飞在CVPR2015的论文。实现代码为neuraltalk2,为在GPU上实现。将代码clone下来,并下载model及测试图,按照步骤即可实现eval。复现准备使用show and tell的基于tensorflow的模型,im2txt。...原创 2018-11-21 19:32:16 · 2230 阅读 · 0 评论 -
RefineNet论文理解
RefineNet block的作用是把不同分辨率的特征图融合。除了RefineNet-4是单输入,其他全是二输入。主要组成部分是Residual convolution uint(RCU)、Multi-resolution fusion、Chained residual pooling、Output convolutions.RCU:是从残差网络中提取出来的单元结构Multi-re...原创 2018-12-04 20:02:00 · 759 阅读 · 0 评论 -
image caption(四)文章及代码的一些解析
show and tell是直接调用的LSTMhttps://www.cnblogs.com/wangduo/p/6773601.html?utm_source=itdadao&utm_medium=referral 1.LSTM网络LSTM网络包括的结构为:输入:、输出:其他:由四个主要的门组成第一步:决定从细胞状态中丢弃什么信息,这个过程由忘记门...原创 2018-11-30 17:20:03 · 1833 阅读 · 0 评论 -
FCN论文理解
代码参考准备接触一下图像分割,首先从FCN看起。FCN中主要是进行encoder-decoder的过程,将图像输入conv层得到feature map,再通过upsampling的方式,deconv为和如图图像一样的大小。以vgg16为例,pool层一共有5个,每进行一次pooling操作,因为其stride为2,所以计算后feature的大小就会成为计算前的1/2,所以在pool5输...原创 2018-12-03 18:04:22 · 682 阅读 · 0 评论