DeViSE:A Deep Visual-Semantic Embedding Model

最新推荐文章于 2023-01-13 22:44:36 发布

big_matster

最新推荐文章于 2023-01-13 22:44:36 发布

阅读量436

点赞数 1

分类专栏：论文创新及观点文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/kuxingseng123/article/details/128679258

版权

论文创新及观点专栏收录该内容

19 篇文章 1 订阅

订阅专栏

这篇是2013年文章提出的 $De Vi SE$ ,主要是综合了传统视觉识别的神经网络和词向量处理 $w or d 2 v ec$ 中的 $S ki p - g r am$ 模型，实现了一个视觉和语义兼顾的 $ZS L$ 模型，取得了较好的效果，时至今日，准确率仍然可以排在前面。

背景

Skip-gram

$S ki p - g r am$ 是word2vec模型中的一种，给定一个input word来预测上下文，训练之后的模型的目的并不是用这个模型来预测，而是为了得到这些模型隐层中学得得权重参数。

首先，我们构建一个完整得神经网络:包括：输入层、输出层、隐层。
例如，对于一个句子I want to eat an apple，选取一个词作为输入，这里选择eat，在定义一个参数 $S ki p - w in d o w$ ，其代表着我们从当前的input word的一侧（左边或右边）选取词的数量，如果我们设置 $S ki p - w in d o w = 2$ ，就代表选取输入词左边两个和右边两个单词进入窗口 $[“ w an t ”, “ t o ”, “ an ”, “ a ppl e ”]$ ,
另外一个参数 $n u m - s ki p s$ 代表我们从窗口中选取多少个不同的词，作为我们的ouput，
当skip-window = 1时，Skip-num = 2时，我们将会得到两组(input word,output word)的形式训练数据，即 (“eat”, “to”)，(“eat”, “I”).
神经网络基于这些训练数据将会输出一个概率分布，这个概率代表我们词典中的每个词是output word可能性例如，上面我们得到两组数据，我们先用一组数据来训练神经网络，那么模型通过前面学习这个训练样本，会告诉我们词汇表中的其他词的概率大小和eat的概率大小。
具体而言，因为神经网络的输入必须为数值，所以我们会首先将词汇表中的单词进行one-hot编码，隐层不在使用任何激活函数，但是输出层是 $so f r ma x$ 。
算法
算法思路
分别预训练一个视觉网络和一个词向量 $S ki p - g r am$ 网络，在结合两个网络进行训练。
原理
预训练一个视觉模型如下图:
和一个skip-gram模型如下:
将两个模型整合为:

具体而言

语义模型
- 通过Skip-gram对模型进行训练，Skip-gram通过单词来预测单词的上下文，训练模型最后得到一个权重矩阵，该矩阵即为需要的 $E mb e dd in g$ 矩阵。
- 视觉模型
  - 采用了1,000-class ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012 这篇文章提出的模型，并将结果作为benchmark。
- Deep Visual Semantic Embedding Model
  - 即本文提出的模型，输出层去掉了之前的softmax, 换成了一个将3096维向量（图像）映射到500维或1000维（词向量）的线性映射，transformation.
  - 损失函数:使用点积相似性（ $d o t - p ro d u c t s imi l a r i t y$ ）和铰链损失函数（ $hin g er ank l oss$ ）结合来作为该模型的损失函数.这可以使得在图像模型的输出和该图像对应的正确标签的向量表示之间的点积相似性。要比不正确的其他标签的向量与该图像的相似性高。