图像可重定向性
摘要
本研究引入了图像可重定向性(image retargetability)的概念,来描述通过内容感知图像重定向处理特定图像的效果。
我们提出学习一种深度卷积神经网络来对照片的可重定向性进行排序,其中照片的可重定向性的相对排序直接在损失函数中建模。
该模型结合了有意义的摄影属性和图像内容信息的联合学习,可以简化复杂的重定向评价问题的正则化。
为了训练和分析这个模型,我们收集了一个数据集,其中包含了由六位专家评分者分配的可重定向分数和有意义的图像属性。
实验表明,我们的统一模型可以生成与人类标签高度一致的可重定向排名。为了进一步验证我们的模型,我们展示了图像重定向性在重定向方法选择、重定向方法评估和照片拼贴生成中的应用。
关键词: 图像可重定向性,视觉属性,多任务学习,深度卷积神经网络
1.介绍
内容感知图像重定向(CONTENT-aware image retargeting,CAIR)解决了在不同分辨率和长宽比的设备上显示图像的不断增长的需求,同时保留其视觉上的重要内容并避免可见的伪影。
虽然最先进的图像重定向技术可以成功地处理许多图像,但是否一个特定的图像可以成功地预先重定向尚不清楚。
如果输入的图像包含丰富的内容或几何结构可能被破坏,重定向结果可能会出现严重的伪影。此外,对于相同的输入,并不是所有的CAIR方法都能很好地工作。考虑质量和鲁棒性的最优方法依赖于输入图像和目标分辨率。例如,基于扭曲的重定向方法[4]、[5]、[8]是有效和流行的方法,但当需要保留显著形状时,容易使某些内容过度拉伸或过度挤压。
为了解决CAIR方法的选择和结果评价问题,我们引入了“图像重定向度”的概念,根据其视觉内容来定量计算图像能被重定向的程度。图1显示了几个输入图像的预先设定的可重定向分数和我们系统选择的“最佳”重定向方法的对应结果。
最近,我们受到一些量化定性图像属性的研究的启发,其中定性量化的图像属性包括了比如有趣性,记忆性,综合性和反映性。
为了计算图像的可重定向性,我们采用了数据驱动的方法,从网络图片中收集了13,584张图片组成一个数据集(第III节)。
对于数据集中的每一张图片,我们应用了多个重定向方法,并邀请6位专家给每个重定向结果质量的标签评分,其中有好的,可以接受的,坏的三种等级(例子见下图)
作者证明了在图像可重定向性和其他视觉属性之间有很强的相关性。并利用这一观察结果作为基础,利用深度卷积神经网络(CNN),提出了一种多任务学习方法,这一方法通过从深度特征中联合学习视觉属性,共享特征用于重定向预测。
我们通过与第五节的基准方法进行比较来评估我们的框架用于图像重定向预测的有效性。鉴于每种CAIR方法都有其自身的优点和局限性,目前还没有产生在所有情况下都比其他算法工作得更好的CAIR算法。我们演示如何使用我们的系统选择“最佳”CAIR方法。我们还证明了图像可重定向性在重定向方法评估和照片拼贴生成方面是有用的(第VI节)。
总结,本文章的主要贡献有如下几点:
- 我们引入图像可重定向性作为图像分析的一个新的定量属性。
- 我们收集了一个大的图像数据集,学习深度特征,用于图像重定向预测。数据集和源代码将在最终出版时发布。
- 我们采用深度神经网络,提出了一种新的多任务学习结构来计算给定图像的重定向能力。
- 我们证明了图像重定向可促进图像分析/处理的几个应用,如重定向方法评估/选择和生成照片拼贴。
2.相关工作
2.1 图像重定向算法:
离散型:
- Cropping: 裁剪常常破坏对象的完整性,造成意外的信息损失。
- Seam Carving: 反复地删除输入图像中的接缝,以保留视觉上突出的内容
- Shift-map: 在单独的像素上执行一个离散的标记,并通过移除网络中的片段来重定向图像。
这些方法擅长于重定位具有丰富纹理内容的图像,但偶尔会导致局部不连续伪影。
连续型(based warping):
- AAD(axis-aligned deformations,坐标对齐变形):最小化翘曲能量以避免不自然失真。
这些方法可以平滑地保留图像内容的几何结构,但也可能允许最小重要和不需要的区域出现在重定向结果中。
多操作方法:
将三个缩合操作(即缝理、裁剪和缩放)融合成一个统一的优化框架。
基于摘要:
测量patch相似度,并选择匹配良好的patch安排来改变图像大小。
基于深度学习的方法:
- Guo等人基于一种新的拼接裁剪回归方法,提出了一种裁切美观区域的方法。
- Song等人针对图像重定向任务,提出了一种基于两模块的深度结构来编码人体感知,并实现了基于多操作器的图像squarization(?)解决方案。
这些基于深度学习的方法是传统裁剪、翘曲或基于多操作的方法的扩展。
第III-B节详细介绍了不同类型CAIR方法的优点和缺点。
2.2 图像重定向评估(这一部分以后可能需要详细阅读)
- Rubinstein等人提出了第一个全面的图像重定向感知研究和分析,创建了RetargetMe数据集,并进行了以此用户实验,来比较由不同的最先进的方法所产生的重定向图像。
- ……
- Zhang等人[35]分析了人类视觉体验质量的三个决定因素,即整体结构失真、局部区域失真和显著信息丢失。
- Fang等人[36]生成了一个结构相似度图来评估重定向图像中的结构信息是否完好。
- ……
然而,这些研究通过对比原始图像和重定向图像来评价图像重定向质量。相比之下,本文的研究侧重于从输入图像本身预测重定向结果的质量,从而可能表明一幅图像是否能够很好地进行重定向。
2.3 图像属性分析
人们对图像的各种语义特性进行了广泛的分析。
- Rosenholtz等人测量图像的视觉杂波,这对视觉内容的检索很有帮助。
- 最近,不寻常的照片被发现是有趣的[9],室内场景和人的图像被发现是难忘的,而风景和室外场景不是。
- 其他定性图像属性,如流行度[45],色彩[46],和美学[47]也被研究:Dai等人使用基于实例的纹理合成技术作为基础,量化纹理合成能力作为一种图像属性,这是可以学习和预测的。
- 在基于文本的图像检索中,利用基于即时内容和属性的图像特异性[48]来识别容易描述的图像。
本文的研究定义了图像可重定向性作为语义特性来量化一个图像可以很好地被重定向的概率。我们证明这个概念与深度相关属性[49]密切相关。
3.数据集准备
本节介绍我们为图像重定向研究所做的数据集准备。首先,我们收集了大量的图像,并根据视觉内容手动为每个图像添加了一些属性(章节III-A)。其次,我们对数据集中的所有图像应用四种典型的CAIR方法,并手动标注每个重定向结果的质量(章节III-B)。
3.1 图像和属性
我们的框架是用来测量在自然图像的野生谱上的图像重定向能力。因此,数据集在内容和组成方面应具有相当大的可变性。
虽然“RetargetMe”基准[32]已经被广泛用于图像重定向工作中的质量评估,但该数据集仅包含80幅图像,不足以可靠地学习图像属性。
从Flickr, Pinterest, 500px, 和 Pexels收集14,000张图片,在知识共享许可下提供从500px的照片类别获得的26个关键字。
这些关键词涵盖了最常见的类别,如动物、食品、自然、体育、旅游、静物、时尚和城市探索。
所有图像都是通过截断它们的长边到500像素来均匀缩放的。小于此尺寸的图像不被使用。我们删除一些低质量或严重的水标记的图像。最后,我们添加了“RetargetMe”图像,最终得到了13584张图像的数据集。
CAIR方法对可任意处理的图像效果最好。这些图像通常包括平滑或特定纹理的区域,如天空、水或草地。当输入图像包含丰富的语义内容、突出的文本或几何结构时,在重定向过程中可能会受到阻碍,这就会带来挑战。
我们以以上观测和摄影理论为基础,选择一组属性映射到几个主要的重定向目标(保留内容、结构、美学和防止伪像),并使用这些属性对收集到的图像进行人工标注。
所选择的属性是人和面孔,线条和/或清晰的边界,突出的单一对象,突出的多对象,地形构成,纹理,重复模式,特定的地理结构,透视,模糊,文本,阴影对比,内容丰富,和对称。下图显示了在我们的数据集中的一些例子,并为每个图像分配了属性。
3.2 重定向方法和标注
为了评估数据集中采集的图像的可重定向性,我们选择并实现了四种最典型、最常用的CAIR方法,即多算子法(multi-operators)、同构变形法(inhomogeneous warping)、移位映射法(shift-map)和裁剪(cropping)法。我们将这四种方法应用于数据集中收集的所有图像。
文章中用的四种CAIR方法虽然不是近期发表的,但他们代表了CAIR框架的主流。最近提出的基于深度学习的方法是这些方法的扩展。我们选择这些经典的方法,是因为它们已被广泛测试,并被证明是稳定和有效的。
考虑到大多数CAIR方法都是为一维重定向而精心设计的,我们将改变限制在图像的宽度或高度。对于数据集中的每一幅图像,我们使用四幅图像将长维度的大小调整为原始的50%。
特别地,我们选择将图像重新定向到它们大小的一半,这类似于以前在CAIR上重新搜索所执行的方法,因为大多数图像可以很好地处理小的变化,而导致较大的变化的结果较差。
我们进一步为每一张图片计算了一张重要图来引导CAIR方法。
采用的以下方法计算重要图:
重要图的例子如下所示:
我们请六位专家评分员独立评估所有重定向图像的质量,并将结果标注为以下三个级别之一(如下图所示):好的,可接受的,坏的,分别对应分数1,0.5和0。
然后,我们计算6个评分者的平均得分,作为数据集中每个重定向结果的评估。
3.3 标签一致性的分析
为了验证注释数据的客观性,我们测量了评价者之间的一致性。
对于我们数据集中的每一幅图像,我们采用Kendall’s协和系数(Kendall’s W)来研究不同受试者之间的评分一致性。Kendall’s W是一个从0(不一致)到1(完全一致)范围内的非参数统计量。总的平均Kendall 's W为0.562,标准差为0.0192。在0.05显著性水平上,评分者对87.69%图像的一致性达到显著性水平。
4.可重定向性建模
首先,我们使用我们的数据集作为基础来分析图像属性和重定向之间的相关性(第IV -A节【4.1】)。其次,我们介绍了利用深度学习和多任务学习来学习和预测图像重定向能力的框架(第IV节- B【4.2】)。
4.1 测量可重定向性
对于数据集中的每个样本图像,我们将其可重定向性(retargetability)定义为四个平均用户评分的最大值(每张图像有4个重定向输出,每张输出图像包含6个用户评分;见第三节)。
有了这种可重定向性的定量度量,我们可以利用Ridit分析[57]分析不同的视觉属性与图像的可重定向性之间的关系,常用于有序分类数据的研究。
在下图中,虚线表示参考单元0.5,参考单元的距离表示属性的影响。显然,一些视觉属性与图像的重定向性密切相关。
例如,虚线下有线条组、文本组、对称组、几何组和模式组,这表明具有这些属性的图像很可能表现出较低的可重定向分数,或者等价地,由我们的评价者标注的较差的重定向结果。
内容丰富、对角线结构和纹理的图像往往对应高分。我们以这一关键观察结果为基础,提出了基于视觉属性学习和预测可重定向性的方法。
4.2 学习和预测可重定向性
虽然图像的可重定向性是通过重定向图像的评级来计算的,但可重定向性本身是这类图像的一个高级属性。因此,我们的目标是直接从源图像学习可重定向性,而不是通过利用预先选择的属性来对重定向排序训练进行正则化来学习可重定向性。
如上图,显示的是我们模型的总结构,包括一个三级特征表征机制和两种损失,分别代表二进制视觉特征或相对可重定向性。
首先,我们使用深度卷积网络的输出作为图像的低级表示。其次,我们对每个属性学习特定于属性的特征,并最终使用这些信息来学习可重定向性。在训练阶段,我们同时学习具有可重定向性的视觉属性特征。
在下一节中,我们将通过联合学习深度特征中的视觉属性和特征共享来演示多任务学习方法,以实现重定向。
4.2.1 深度特征
我们使用VGG-19[58]样式模型在ImageNet[59]上预先训练用于图像分类,以提取输入图像的深度特征。
将输入图像的短边等向缩放至224后,对图像进行密集裁剪,得到 224 × 224 224\times 224 224×224 子图像,并将正方形子图像输入卷积网络。
为了学习,需要重新缩放或裁剪图像到相同的大小,这似乎违背了研究改变图像长宽比的效果的目的。然而,与图像重定向相比,其他视觉属性对输入图像的大小变化具有更强的鲁棒性。也就是说,如果一个图像包含一个人脸,那么这个人脸将继续存在,即使图像的长宽比已经改变了。
令
F
m
i
Fm_i
Fmi 表示第i张子图像的最后一个卷积层输出,则一张输入图像的低级深度特征(low-level deep feature)定义为:
F
m
=
∑
i
=
1
K
F
m
i
K
Fm = \frac{\sum^K_{i=1}Fm_i}{K}
Fm=K∑i=1KFmi
其中
K
K
K 是子图像的数目,在实验中被设置为
10
10
10 。
我们用卷积层的输出代替全连通层来获得底层图像表示。因此,输出与预先训练的分类任务没有太大的关系。
4.2.2 学习可重定向性
我们尝试学习视觉属性的中层特征,并为可重定向性共享这些特征,以提高学习性能。
在我们的任务中,所有的视觉属性都被标记为1或- 1,其中二进制属性通常用于分类方法学习。
我们将可重定向性看作一种相对属性,它在唯一识别图像方面具有强大的功能,并提供了一种有意义的方法来描述和比较野外图像。
给定一个低级深特征空间加上注释的属性和已标注可重定向性的图像数据,我们通过优化一个联合损失函数,学习共享属性级特征表示(shared attribute-level feature representation)。这个联合损失函数支持成对相对损失和具有二元属性稀疏模式的平方铰链损失函数。
4.2.2.1 二进制属性特征学习
给定
M
M
M 个语义属性,目标是联合学习M个二元分类器。
每个二元分类器是一个四层的神经网络,包括了一个输入层,两个节点数分别为4096和1000的隐藏层,一个1节点的输出层,还有铰链损失的平方函数。
我们看利用1,2范数最小化来促进不同属性种的特征共享。
通过1,2范数规则化进行特征学习鼓励来自不同任务的多个预测器共享类似的参数稀疏模式。
给定一张输入图像 i i i , 一个 M M M 维的标签向量 L i L_i Li, 其中每个元素不是1就是-1。
设第
k
k
k 个属性学习MLP服务器的两个隐含层之间的参数为
w
k
w_k
wk,我们提出如下公式:
l
o
s
s
b
i
n
a
r
y
(
i
)
=
∑
k
=
1
M
1
2
[
m
a
x
(
0
,
1
−
L
i
k
⋅
L
i
k
∗
]
2
+
1
2
α
∣
∣
W
∣
∣
2
,
1
loss_{binary}(i) = \sum^M_{k=1}\frac{1}{2} [max(0,1-L_{ik}\cdot L_{ik}^*]^2+\frac{1}{2}\alpha ||W||_{2,1}
lossbinary(i)=k=1∑M21[max(0,1−Lik⋅Lik∗]2+21α∣∣W∣∣2,1
4.2.2.2 相对可重定向性学习
一般来说,相对属性学习的目标是学习标记图像对的排序函数。现有的相对属性学习方法学习线性函数来将手工制作的特征映射到相对分数。
我们收集每个视觉属性学习到的特征作为中层的视觉特征,并利用这些属性相关特征,通过三层包含1000个隐藏节点的神经网络训练可重定向性。
所有的共享特征被拼接并作为三层神经网络的输入。
我们将相对损失定义为对比约束和相似约束之和。
给定一对图像
i
i
i 和
j
j
j, 对于可重定向性
y
i
y_i
yi 和
y
j
y_j
yj 被预测为
y
i
∗
y_i^*
yi∗和
y
j
∗
y_j^*
yj∗, 图像对
(
i
,
j
)
(i,j)
(i,j) 的损失定义为:
l
o
s
s
r
e
l
a
t
i
v
e
(
i
,
j
)
=
I
(
i
,
j
)
⋅
l
p
(
i
,
j
)
+
(
1
−
I
(
i
,
j
)
)
⋅
l
q
(
i
,
j
)
loss_{relative}(i, j) = I(i,j)\cdot l_p(i,j)+(1-I(i,j))\cdot l_q(i,j)
lossrelative(i,j)=I(i,j)⋅lp(i,j)+(1−I(i,j))⋅lq(i,j)
其中,
其中
I
(
i
,
j
)
I(i,j)
I(i,j) 是一个二进制函数,表示图像
i
i
i 和
j
j
j 是否具有相似的重定向能力,
l
p
(
i
,
j
)
l_p(i,j)
lp(i,j) 表示为有序图像对
(
i
,
j
)
(i,j)
(i,j)的对比约束,
l
q
(
i
,
j
)
l_q(i,j)
lq(i,j) 是对无序对给出了相似的约束。
参数
τ
\tau
τ 控制
I
(
i
,
j
)
=
1
I(i,j)=1
I(i,j)=1 时属性值之间的相对边距
4.2.2.3 公式和实现
考虑到成对的相对损失,我们采用双通道孪生网络作为整体结构。
网络的每个通道结合属性特定特征,预测14个视觉属性和可重定向性。
基于铰链的二元损失在每组M属性之间计算,相对损失由两个预测的可重定向性计算。
整个二通道网络的目标函数时:
min
θ
J
θ
=
∑
i
,
j
i
≠
j
l
o
s
s
b
i
n
a
r
y
(
i
)
+
l
o
s
s
b
i
n
a
r
y
(
j
)
+
l
o
s
s
r
e
l
a
t
i
v
e
(
i
,
j
)
+
β
∣
∣
Θ
∣
∣
F
\min_{\theta}J_\theta = \sum^{i\neq j}_{i,j}loss_{binary}(i)+loss_{binary}(j) +loss_{relative}(i,j)+\beta||\Theta||_F
θminJθ=i,j∑i=jlossbinary(i)+lossbinary(j)+lossrelative(i,j)+β∣∣Θ∣∣F
其中
Θ
\Theta
Θ 代表所有优化的参数,而
∣
∣
Θ
∣
∣
F
||\Theta||_F
∣∣Θ∣∣F是一个用于惩罚过拟合的回归项。
下方的表总结了提出方法的配置:
注意,参数的主要部分来自用于二值属性学习的MLPs。由于这些MLPs是在多任务学习的方式下训练的,所以参数是分开学习的。
为训练给定N张图像,为了分别训练这些MLP,我们能够得到 14 × N 14\times N 14×N维的独立标签。
每个属性都在一个小模型上训练。特性共享技术进一步增强了不同的属性。
为了计算相对损失,我们从这N张图像中随机抽取一对样本。
我们可以画出 C N 2 C_N^2 CN2 对用于训练的样本对。
这些优点可能在所提数据集上可以训练大网络。我们采用小批量随机梯度下降法,批量大小(batch size)为64,初始学习率(learning rate)为0.01。
对于全连通层,我们采用ReLU作为激活函数。在训练阶段,我们随机抽取30%的参数来推动网络学习附加的一般特征。
在测试阶段,我们使用孪生网络的一种方式生成输出,并将预测值截断为[0,1]。
。。
。。
。。
。。
5. 评估
略
6.应用
6.1 重定向任务的联合表示(重定向方法选择)
我们将学到的图像表示用于另一CAIR任务:重定向方法选择,从而提出了一种针对给定图像的“最佳”重定向方法。
- 首先,我们在训练集中收集具有“良好”或“可接受”重定向结果的图像,并根据手工注释记录每幅图像的“最佳”方法(章节III-B)。
- 其次,我们训练每种CAIR方法的SVM分类器,以了解该方法是否能够很好地对图像进行重定向。这些分类器的输入是我们方法学习到的图像表示。
- 在测试过程中,建议将预测值最高的方法作为对给定图像的“最佳”重定向方法。
6.2 重定向方法评估
可以选择可重定向性低或中等的图像,来评估新的重定向方法。
通过实验,我们发现重定向率安排在(0.0,0.75)之间的图像对于新的CAIR方法评估是可靠的。
6.3 贴图位置调整
比如有一组图片如下所示,要处理成海报贴图的形式,
那么可以运用本文模型,预测出每张图片的可重定向性,然后根据它们的可重定向性对所有的图像进行排序,然后在增加可重定向次序中将图像放入画布。可重定向性相对较低的图像优先放置在长宽比可以最大限度保持的区域。
上面的作图就是用上面那个策略的结果,右图则是没用这一策略的结果,导致严重的内容损失或边界不连续现象。我们观察到,考虑重定向可以保留突出的内容,并呈现较少的非自然重定向效应。
M. M. Cheng, N. J. Mitra, X. Huang, P . H. S. Torr, and S. M. Hu, “Global contrast based salient region detection,” IEEE Trans. Pattern Anal. Mach.Intell., vol. 37, no. 3, pp. 569–582, Mar. 2015. ↩︎
S. Saito, T. Li, and H. Li, “Real-time facial segmentation and performance capture from rgb input,” in Proc. Eur . Conf. Comput. Vis., 2016,pp. 244–261. ↩︎
S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards real-time object detection with region proposal networks,”IEEE Trans. Pattern Anal.Mach. Intell., vol. 39, no. 6, pp. 1137–1149, Jun. 2015. ↩︎
C. Rother, V . Kolmogorov, and A. Blake, “GrabCut: Interactive foreground extraction using iterated graph cuts,” inProc. ACM Trans. Graph., vol. 23,no. 3, pp. 309–314, 2004 ↩︎