论文主要内容:自动对图像生成描述,并标注描述片段对应的图片区域
- 图像检测,利用Region Convolutional Neural Network (RCNN),引用论文:Rich fea-ture hierarchies for accurate object detection and semanticsegmentation. In CVPR, 2014.
- 图像表示: 选择top19个RCNN检测的区域和原图,每个都用cnn映射到4096维的向量。再通过一个矩阵W,转化成一个矩阵v,来表示图像(v是h*20;h是1000-1600维)。 即:v = Wm[CNNθc (Ib)] + bm (v的维度 h*20)
- 句子表示:输入N个词,使用BRNN
-
- 每个词进行word2vect转化为300维向量(论文表示,随机初始化向量,对效果也没太大影响)
- 隐层神经元个数300-600
- 输出层维度h*t,h和上面相同,t是句子单词个数
- 激活函数使用 Relu, x → max(0, x)
- 图像和句子的match,lose-function
-
- 相似度用向量点积(dot product)表示
- 图像和句子相似度公式
,k是子图像个数,小写L是句子单词个数
- 整体lost-function:其中k=L表示训练集中图片和句子匹配
-
- 其他
- 文本片段和图像区域的对齐,利用 Markov Random Field (MRF),考虑相邻单词的联系。利用动态规划求解最优对齐
-
- 图像描述自动生成,利用 Multimodal RNN
-
- 输入图像Cnn最后一层表示(只在t=1的时候加入), + 图像中间表示向量Xt
- 隐藏层神经元512个,
- 输出层,softmax,生成(每个单词+结束符)的概率
- 训练部分:
-
- 隐层h0设置为0,输入X1是个特别的START向量,输出Y1是样本对应句子的第一个单词
- 最后Xt对应最后一个输入单词,Yt是特别的END向量
- cost-function,最大化预测概率,log probability
- 预测部分
-
- 首先得到图像的表示向量Bv,隐层h0设置为0,X1是START向量。得到Y1向量(候选词概率分布)
- 然后选Y1向量中某个词,用其word-embeding作为X2的输入,如此下去,知道输出END
- 其他
- 配置&优化
-
- 对齐模型: 100样本的batch的SGD,0.9的动量
- 每层都dropout(除了rnn循环层,Recurrent neural network regularization.,2014.) clip gradients elementwise at 5
- 调整梯度更新:RMSprop( Dividethe gradient by a running average of its recent magnitude.,2012.)
- 评估方法
-
- 数据集:Flickr8K,Flickr30K,MSCOCO (数据量:8k,31k,123k,每张图有5个标注句子)
- 数据处理:转小写字母,去字符。过滤训练集词频<5的单词
- 实验结果
- 其他