视觉类比VISALOGY: Answering Visual Analogy Questions--NIPS2015

最新推荐文章于 2020-12-27 19:22:30 发布

小明知道

最新推荐文章于 2020-12-27 19:22:30 发布

阅读量2.4k

点赞数

分类专栏：机器学习文章标签：神经网络

本文链接：https://blog.csdn.net/hlx371240/article/details/51388001

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文是NIPS2015的一篇文章，整篇文章主要是解决一个视觉类比问题。
摘要: 视觉类比问题非常值得研究。这个研究问题主要是：图像A类比图像B，那么图像C类比什么图像。视觉类比问题主要是深入挖掘图像A和图像B之间的映射关系，从而搜索出图像C对应的映射图像D。本文嵌入类比损失函数到深度卷积神经网络中，学习图像之间的类比关系，最后解决了自然图像之间的视觉类比问题。

引言：
图像类比就是原始图像映射到目标图像。类比的思维在人类认知科学中占有比较重要的低维。类比思维可以用认知科学的一些理论或者模型来进行解释，如共享结构，共享抽象，主题关系，蕴含推演等。最常见类比信息是找到一种映射，可以使原始信息按照一定的规则映射到目标信息。这种处理方法非常像美国本科入学考试的一种题：A相对B，那么C相对什么？

本文，我们主要解决图像的类比问答问题。假设这儿有三张图像，分别为 $I_a,I_b,I_c$ ,。如果图像。如果图像类比于图像 $I_b$ ,那么图像 $I_c$ 类比于数据集中的什么？所以我需要选出 $I_d$ ,满足 $I_a:I_b=I_c:I_d$ 。如果利用当前的一些特征提取算法我们就需要对图像进行严格的对齐，严格的推理以及大量的训练数据。相反地，我们设计了一个类比损失函数，通过简单的向量映射，让卷积神经网络自动的学习到图像之间的这种类比关系。这就是一种从原始图像到目标图像之间的映射关系。
我们的目标就是，给定一些训练相同类比关系的图像训练集，通过样本赋予机器自动挖掘图像的类比关系，从而得到一个图像类比机器。如图1所示就是一个简单图像类比器。

图1 图像类比器

可以从图中看出，一个棕熊类比了一个白熊，可以看出，这个类比是颜色上的变化，那么一只棕色狗利用这个类比关系得到什么样的答案呢，那么我们从图1中间行的图像进行搜索，我们可以从图1最后一排的结果排序答案看出，这只棕色狗类比了最好的是白色狗。
从图1的结果可以看出，这个研究是非常有意思的。我们提出利用类比函数来学习这个类比关系，让相似的类比更加接近。特别的我们在卷积神经网络中（如图2所示）嵌入了一个类比函数，能让图像得到的特征在空间中转化。因此我们只需要加入类比损失函数来对卷积神经网络的最后一层输出进行fine-tune，这个类比函数就是为了使相同的类比更加接近，不相似的类比更加远。我们使用标准的CNNs训练图像的分类网络。训练数据集包含自然图像和人工图像。我们的评价采用不同数目的错误答案和正确答案来对我们的网络进行测试。
在本文中，我们研究了图像类比问答问题，旨在生成图像类比问答器。我们的方法通过学习类比函数来学习图像之间的类比映射关系。我们对自然图像的属性和行为进行标定来训练这个视觉问答系统（Visual Analogy Question Answering，VAQA）。同时我们对3D凳子设计了一个VAQA系统，这些3D凳子包含了不同的风格和视角。结果表明了我们的算法能够很好解决了VAQA问题。

2.提出的方法
我们提出一个视觉类比问答问题— $I_1:I_2::I_3:?$ 。这个问题是 $I_1$ 类比 $I_2$ ，然后我们从数据集中找出 $I_4$ ， $I_3$ 和 $I_4$ 的类比关系,所以我们需要找到一个函数 $T$ (参数 $\theta$ )，能使每一对图像( $I_1,I_2$ )映射到一个向量 $x_{12}=T(I_1,I_2;\theta)$ .目的是为了得到一个参数 $\theta$ 使得 $x_{12}\approx x_{34}$ ，从而得到图像类比关系 $I_1:I_2::I_3:I_4$ 。我们可以输入一对图像，这对图像通过卷积神经网络(ConvNet)的差异性得到函数 $T$ 的值。

2.1类比卷积神经网络
训练一个类比卷积神经网络，我们需要输入四张图像 $I_1,I_2,I_3,I_4$ 。这四张的关系为 $I_1$ 和 $I_2$ 的类比关系等于 $I_3$ 和 $I_4$ 的类比关系.我们的目的是 $I_1$ 和 $I_2$ 的类比特征和 $I_3$ 和 $I_4$ 的类比特征在空间中能够映射到一个点上。为了能够实现这个目标，我们利用一个类比损失函数 $L$ 使同一类比的两对图像在特征转换空间靠近，让不同类比关系的两对图像在特征转换空间中远离。假设一对输入图像类比特征定义为 $d$ 维空间向量 $x$ ，那么我们这个类比损失函数可以定义为如下：
$L^{m}(x_{12},x_{34})=y||x_{12}-x_{34}||+(1-y)max(m-||x_{12}-x_{34}||)$
其中 $x_{12}$ 和 $x_{34}$ 分别是图像 $I_1,I_2$ 和 $I_3,I_4$ 类比空间特征向量。当输入的四张图像满足 $I_1:I_2::I_3:I_4$ 时， $y=1$ ，当输入的四张图像不满足类比关系的时候， $y=0$ 。m为边界参数，当y=1的时候，这四张图两两满足类比关系，它使 $x_{12}$ 和 $x_{34}$ 在空间的距离变近，当 $y=0$ 的时候，这四张图不满足两两类比关系，那么就是这错误的结果大于 $m$ ，其中 $m>0$ 。我们对式(1)求偏导得到目标函数损失，利用随机批量下降(stochastic gradient descent, SGD) back propagated到前面的前面的卷积神经网络中来调节网络的权重 $\theta$ 。
整个网络如图2所示。

图2 类比卷积神经网络，每一个网络都共享参数

θ $\theta$ ，给定图像

I1,I2,I3,I4 $I_1,I_2,I_3,I_4$ ，为了让正确的视觉类比距离靠近，错误的视觉类比距离远离。
我们计算特征转换向量x，我们利用了图2中的卷积神经网络框架。每一张图像通过卷积神经网络前馈得到图像特征，这个卷积神经网络的参数都是一样的。类别y代表了我们输入的四张图像是否构成类比关系。