交互式裁剪系统--2006-Gaze-Based Interaction for Semi-Automatic Photo Cropping

作者:Anthony Santella,Maneesh Agrawala,Doug DeCarlo,David Salesin,Michael Cohen
全文:PDF

1.摘要

我们提出了一种交互式的裁剪照片的方法,给出了关于重要内容位置的最小信息,由眼睛跟踪提供。

裁剪是在一个通用的优化框架中制定的,该框架便于添加新的组合规则,以及使系统适应特定的应用程序。

我们的系统使用人眼注视数据来识别重要的内容,并计算出任何给定的长宽比或大小的最佳裁剪,从而支持诸如自动快照重新组合自适应文档缩略图等应用。

我们通过一些研究来验证我们的方法,在这些研究中,用户将我们的裁剪与手工和完全自动化的方法生成的裁剪进行比较。实验表明,与未裁剪的图像和全自动的裁剪相比,观众更喜欢我们的视觉裁剪。

2.介绍

裁剪照片是一种完全由省略组成的艺术。成功的裁剪改变图像的组成,强调最重要的图像内容,同时消除分散的元素。如下图所示,有效的剪裁将观众的注意力集中在图像的主题上,而拙劣的剪裁则会分散观众的注意力。
在这里插入图片描述
我们提供了一个隐式的、注意机制的裁剪交互界面[31]。
用户只需对每张图像看几秒钟,系统就会记录他们的眼球运动。
我们的系统使用这些记录来识别重要的图像内容,然后可以自动生成任何大小或高宽比的裁剪。
除了裁剪之外,在没有显式交互的情况下准确识别相关图像内容也是一个重要的问题
它可以让应用程序监控或响应用户在图像中的注视,比如视频和图像传输,分析和量化图像上的观看行为,以及在图像编辑中选择感兴趣的区域(ROI)。

我们的系统把裁剪当作一个优化问题。
它在可能的裁剪空间中寻找一种既尊重观赏者的兴趣,又遵守一些基本组成规则的裁剪。
我们的目标是在没有显式交互的情况下创造美观的裁剪。因此,我们通过强迫选择实验来验证我们的方法,在强迫选择实验中,被试者将基于视觉的交互制作的裁剪与自动和手工制作的裁剪进行美学比较。以注视为基础的裁剪被认为比手工处理的裁剪要好。

我们工作的具体贡献包括:
•一种新的基于记录的眼球运动量化图像内容重要性的通用算法。
•确定并实施一套可以进行定量评价的规章制度。
•通过用户研究来验证我们的方法与以前的技术相比的适当性和有效性。

3.背景及相关工作

关于构图的实际讨论还经常提到根据几何标准来放置主题,如居中原则三分之二原则(或五分之二)和黄金分割率

4.交互式的裁剪过程

要定义一个好的裁剪,我们首先需要一个明确表示重要图像内容的模型。
我们使用分割眼睛跟踪来建立这样一个表示。
接下来,我们的系统从一大批可能的裁剪中选择最好的裁剪结果。
我们已经创建了一个目标函数,根据创建吸引裁剪的一般规则,为每一种潜在裁剪分配一个分数。我们在所有可能的裁剪上最小化这个目标函数,以确定最好的一种。

大致流程如下图所示:
在这里插入图片描述

4.1 分割

要实现裁剪,我们需要识别照片中有意义的元素。我们首先在两种尺度上分割照片::一个精细,一个粗略。
见图2 (b, c):
在这里插入图片描述

分割将图像表示为具有相似颜色的连续像素区域的集合。它以一种通常与视觉场景中的物理特征相关的方式提供关于图像区域的信息。

精细和粗尺度的分割, S f i n e S_{fine} Sfine S c o a r s e S_{coarse} Scoarse,是通过对照片分别进行4倍和8倍的采样,并使用EDISON[6]进行分割而产生的。

EDISON[6]:Christoudias, C., Georgescu, B., and Meer, P . Synergism in low level vision. Proceedings ICPR 2002.

在配置EDISON时,对于 S f i n e S_{fine} Sfine,在L∗u∗v∗空间中,我们使用的空间带宽为7像素,颜色带宽为6.5;对于 S c o a r s e S_{coarse} Scoarse,这些参数分别为10和9。

4.2 识别重要内容

为了识别重要的图像内容,我们识别分割区域,对应的高度检查的部分图像。
由于(2006年)当时的分割技术和眼球跟踪技术还不够精确,作者在注视点和附近区域之间做了一个软分配,以保守地估计观众看的地方。

内容识别输入的是一组注视点位置 x k x_k xk,对于k∈[1. . . n],以及对应的一组持续时间 t k t_k tk
在这里插入图片描述
每个点标记一个注视点位置;没有显示持续时间。在一个区域的附近注视点会提高该区域的重要性,但仅限于对整个区域进行检查的程度。例如,我们不希望仅仅因为感兴趣的物体位于附近,就显著地提高大背景区域(如天空)的重要性。为了避免这个问题,我们让注视点赋予该区域的重要性随着该区域的像素点与注视点的距离的增加而急剧下降,并在整个区域内平均所有注视点的贡献。我们计算一个输入点 x k x_k xk和区域R∈ S f i n e S_{fine} Sfine的所有像素的平均距离D:
D ( k , R ) = 1 ∣ ∣ R ∣ ∣ ∑ i ∈ R ∣ ∣ x k − i ∣ ∣ D(k,R) = \frac{1}{||R||}\sum_{i\in R}||x_k-i|| D(kR)=R1iRxki
然后我们使用相应的注视时间 t k t_k tk的高斯加权和来计算该区域的总重要性。
这个重要性估计给出了观察者花在检查特定区域R上的相对时间:
m ( R ) = ∑ k ∈ [ 1... N ] e − D ( k , R )

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值