【Image Cropping】Composing Good Shots by Exploiting Mutual Relations

摘要

问题:从输入图像中找到具有良好构图的视图。

一幅图像中通常至少有几十个候选区域,而对其评价是主观的。

现有方法大多使用每个候选区域的对应特征来评估质量。然而,候选区域之间的相互关系在组成一个好镜头中起着至关重要的作用,因为这个问题具有比较性质。

受此启发,本文提出一个带有门控特征更新的基于图的模块,用于建模不同候选区域之间的关系。候选区域特征在模拟不同区域之间的相互关系的图上进行传播,以挖掘有用的信息,从而自适应地融合关系特征和区域特征。

我们设计了一个多任务损失函数来训练模型,特别是采用了正则化项。将关于关系的先验知识融入到图里。

还开发了一种数据增强方法,通过混合来自不同图的节点来改善模型的泛化能力。

介绍

我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:

寻找视图是许多任务的关键,例如图像裁剪[40,48]。
多年有许多用于图像自动裁剪或良好视图推荐。现有方法主要是:

  1. 在第一阶段生成候选框,根据显著性检测美学评估的结果,对生成的候选框进行评分。
  2. 最近,许多数据驱动的方法直接用标注数据训练CNN模型来解决这个问题。

上述方法在评分时主要考虑候选图像的区域特征,忽略了图像不同区域(视图)之间的相互关系。挖掘不同区域之间的关系,可以显著帮助从图像中找到好的视图

本文提出一种基于图的门控特征更新的模型,对这些关系进行建模,并使用挖掘出的关系特征更新区域特征,以找到良好视图。不同区域的特征通过图卷积[21]在对相互关系建模的图上进行传播。在特征传播过程中,通过考虑图中相邻节点的影响来挖掘候选区域的关系特征,有助于收集更多的比较信息以预测区域的得分。将挖掘出的关系特征与区域特征通过一个控制不同特征影响力的门进行融合。为了使图具有更强、更鲁棒的推理能力,提出一种数据增强方法,从不同的图中随机选择节点,并使用所选节点构建一个新的图进行预测。实验表明,通过混合不同的图,该模型可以获得更好的泛化能力。
关系挖掘过程
设计了一种多任务损失函数来训练模型,其中使用加权回归损失函数来预测每个区域的得分,特别关注那些标注得分高的区域。这通过对具有高注释分数的区域赋予更大的权重来实现。加权回归损失用于衡量模型预测的分数与实际注释分数之间的差距。此外,应用了排名损失来明确建模不同候选区域之间的得分差距。为将更多先验知识纳入图中,提出一个正则化项,以增强所构建的图和注释之间的相关性。具体而言,该正则化项用于约束图中构建的边与注释之间的相关性。这有助于确保图能够更好地反映注释中的信息,并提高模型的性能。

贡献

  1. 我们提出了一种基于图的模型,该模型具有门控特征更新,可以从图像中找到好的视图。据我们所知,这项工作是第一个明确地模拟不同候选区域之间的关系以寻找好视图的研究。
  2. 为了提高模型的泛化能力,我们引入了一种新的混合图数据增强方法。
  3. 我们设计了一个多任务损失来训练模型,该模型使预测分数和排序顺序都接近于注释,并同时将先验知识纳入图中。
  4. 我们通过广泛的实验和全面的烧烧研究来分析所提出模型的每个组件的贡献,并证明为什么基于图形的模块有助于找到好的视图,从而证明所提出的算法优于最先进的方法。

算法概述

我们提出了一种基于图的模型,该模型可以捕获不同区域之间的关系,从而从几张图中找到好的视图。给定Input Image,从骨干网(VGG16)获得Feature Map,从Feature Map中提取每个预定义区域的特征向量,根据不同区域之间的相似度构建一共图。在训练过程中,我们使用正则化项来强制图的邻接矩阵注释的分数相似度矩阵之间的相关性尽可能强,以便将人类的先验知识纳入构建的图中。
该模型使用图卷积运算[21]在图上传播区域特征,获得Relation Feature,关系特征为最终预测提供了更多线索。我们通过门连接自适应地更新Local FeautureRelation Feature。最后,根据融合后的特征预测各区域的得分。所建议的模型如图2所示
算法总流程

基于图的关系挖掘

给定输入图像的特征图,我们以类似[48]的方式提取不同区域的特征。

  1. 首先,我们使用1×1卷积层将特征图的通道维度降低到8。
  2. 然后,使用RoIAlign[15]和RoDAlign[48]方案提取每个区域的RoI (region of interest)特征和RoD (region of discard)特征,池化大小为9×9。
  3. RoI和RoD特征作为region特征接触并通过全连接层。
  4. 我们将从图像中提取的区域特征表示为
    X = [x1, . . . , xi, . . . , xN]∈RN*D,其中xi为第i个区域的特征,N为区域的个数,Din为每个区域特征的通道维数。

Reasoning Mutual Relations

利用Region特征图,首先构建图来描述它们之间的相互关系。

  1. 将每个区域视为一个节点,构建一个具有N个节点的图,N为区域个数。
  2. 构建邻接矩阵A来描述区域之间的相似性,对于区域xm与区域xn之间的相似度用高斯核函数计算:
    在这里插入图片描述
    Wm和Wn是两个用于变换区域特征的可学习的参数(可训练矩阵),||·||表示欧氏范数,σ是1. 其中A的对角线元素都被设置为1,这意味着图中的每个节点都有一个自环。
  3. 构建图后,在图上进行图卷积,利用图卷积[21]将不同区域的特征在图上进行传播,以学习不同区域之间的关系。给定邻接矩阵A和区域特征X,则关系特征学习公式为:
    Fr = AXWr
    Fr是区域关系特征矩阵,Wr 是可学习参数。
  4. 每个区域的关系特征Fr汇聚了从图中传播的上下文信息,这对最后预测很重要。因为打分过程是一种隐式排序,学习区域之间的关系可以帮助预测一个区域的分数时考虑到其他区域的影响。

将先验知识加入图

如何在构建区域关系图时加入先验知识的正则化项,使学习到的图结构更符合注释分数的相似性。

  1. 区域关系特征Fr是在图上进行传播获得的,所以图本身如何反应区域关系至关重要。
  2. 在公式1中,使用区域特征计算邻接矩阵A,使A随训练逐步学习区域关系,这是隐式学习过程。
  3. 还加入了基于先验知识的正则化,如果两个区域的注释分数差异小,它们在矩阵A中的权重应该大。
  4. 构建矩阵As体现区域注释分数的相似性,两个区域的As中的元素按照以下公式:
    在这里插入图片描述
  5. 加入正则项,使As和A的相关性高,迫使学习的图结构符合注释相似性:
    在这里插入图片描述
  6. 将公式4作为正则项加入损失函数,使学习到的A和先验知识As高度相关。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值