Deep Visual-Semantic Alignments for Generating Image Descriptions阅读笔记

最新推荐文章于 2022-09-23 11:48:39 发布

AlbertBright

最新推荐文章于 2022-09-23 11:48:39 发布

阅读量1k

点赞数

分类专栏：论文阅读笔记文章标签： cnn rnn vc

本文链接：https://blog.csdn.net/AlbertBright/article/details/78946529

版权

论文阅读笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

论文主要内容：自动对图像生成描述，并标注描述片段对应的图片区域

图像检测，利用Region Convolutional Neural Network (RCNN)，引用论文：Rich fea-ture hierarchies for accurate object detection and semanticsegmentation. In CVPR, 2014.
图像表示：选择top19个RCNN检测的区域和原图，每个都用cnn映射到4096维的向量。再通过一个矩阵W，转化成一个矩阵v,来表示图像（v是h*20；h是1000-1600维）。即：v = Wm[CNNθc (Ib)] + bm （v的维度 h*20）
句子表示：输入N个词，使用BRNN
1. 每个词进行word2vect转化为300维向量（论文表示，随机初始化向量，对效果也没太大影响）
2. 隐层神经元个数300-600
3. 输出层维度h*t，h和上面相同，t是句子单词个数
4. 激活函数使用 Relu， x → max(0, x)
图像和句子的match，lose-function
1. 相似度用向量点积（dot product）表示
2. 图像和句子相似度公式，k是子图像个数，小写L是句子单词个数
3. 整体lost-function：其中k=L表示训练集中图片和句子匹配
5. 其他
文本片段和图像区域的对齐，利用 Markov Random Field (MRF)，考虑相邻单词的联系。利用动态规划求解最优对齐
图像描述自动生成，利用 Multimodal RNN
1. 输入图像Cnn最后一层表示（只在t=1的时候加入）， + 图像中间表示向量Xt
2. 隐藏层神经元512个，
3. 输出层，softmax，生成（每个单词+结束符）的概率
4. 训练部分：
5. 1. 隐层h0设置为0，输入X1是个特别的START向量，输出Y1是样本对应句子的第一个单词
  2. 最后Xt对应最后一个输入单词，Yt是特别的END向量
  3. cost-function，最大化预测概率，log probability
6. 预测部分
7. 1. 首先得到图像的表示向量Bv，隐层h0设置为0，X1是START向量。得到Y1向量（候选词概率分布）
  2. 然后选Y1向量中某个词，用其word-embeding作为X2的输入，如此下去，知道输出END
8. 其他
配置&优化
1. 对齐模型： 100样本的batch的SGD，0.9的动量
2. 每层都dropout（除了rnn循环层，Recurrent neural network regularization.,2014.） clip gradients elementwise at 5
3. 调整梯度更新：RMSprop（ Dividethe gradient by a running average of its recent magnitude.,2012.）
评估方法
1. 数据集：Flickr8K，Flickr30K，MSCOCO （数据量：8k，31k，123k，每张图有5个标注句子）
2. 数据处理：转小写字母，去字符。过滤训练集词频<5的单词
实验结果
其他

AlbertBright

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Deep Visual-Semantic Alignments for Generating Image Descriptions阅读笔记

论文主要内容：自动对图像生成描述，并标注描述片段对应的图片区域图像检测，利用Region Convolutional Neural Network (RCNN)，引用论文：Rich fea-ture hierarchies for accurate object detection and semanticsegmentation. InCVPR, 2014.图像表示：选择top19
复制链接

扫一扫