有关3D图像重定向性能评估方法
1.2017-Wang et.al.缩略图生成1
1.1 定性分析
与自身比较的缩略图生成方法:
分类 | 简称 | 论文 |
---|---|---|
seam carving | ISC | 2 |
cropping | CROP | 3 |
scale | SOAT | 4 |
stereo seam carving (3D) | SSC | 5 |
从结果中分析其他方法的优缺点以及自身方法的优势。
比如其他方法得出的结果:
- 或者图像明显被压扁,直线弯曲;
- 或者调整大小的图像的立体感质量会降低;
- 或者在结构对象上造成明显的不连续性;
并说明其他方法会出现这些不好的结果的原因
1.2 定量分析
作者选择相交联合度量(IoU)来量化提取的缩略图的质量。IoU的定义是提取的缩略图和ground truth矩形之间的交集面积除以它们的并集面积:
I
o
U
=
∣
W
g
t
⋂
W
t
h
∣
∣
W
g
t
⋃
W
t
h
∣
IoU = \frac{|W_{gt}\bigcap W_{th}|}{|W_{gt}\bigcup W_{th}|}
IoU=∣Wgt⋃Wth∣∣Wgt⋂Wth∣
其中的ground truth矩形来自与作者自己做的一个数据集:
- 从6、Flickr和Stereoscopic Image Gallery 3中的数据集收集100张立体图像
- 然后让三个用户分别用一个包围显著区域的矩形来标记这些图像。
- 我们根据标记矩形之间的重叠对图像进行排序,并选择前80个图像。
- 然后根据多个用户的“多数同意”手动绘制一个更精确的ground truth矩形,从而减少了重要区域在何处的模糊性。
表1报告了我们的OAC算法以及我们的立体缩略图数据集上的CROP和SOAT的平均IoU得分。我们的OAC算法的IoU平均得分(0.7249)比CROP(0.5506)和SOAT(0.5827)有显著提高。这些结果表明,我们的方法优于CROP和SOAT。
2.2019-MSTGAR7
2.1 数据集
作者制作了一个重定向数据集:
- 收集了105张立体图片
- 每个立体图像都用一个矩形框来标记,这个矩形框是基于ground truth 二值掩模的
- 由于数据集中的掩码是基于对象的,因此使用IoU(Intersection over Union)度量来度量缩略图生成后对象的准确性
2.2 定性分析
与其他2D/3D缩略图生成方法比较:
分类 | 简称 | 论文 |
---|---|---|
cropping (3D) | CPC | 1 |
cropping (3D) | OAC | 1 |
scale | SOAT | 4 |
cropping | AIC | 8 |
cropping | EC | 9 |
cropping | A2RL | 10 |
2.2.1 缩略图质量
为了验证缩略图生成的性能,考虑了90×120、120×120和160×120三种目标分辨率。
并从结果图片中去分析,凸显自身方法的优势。
其他方法出现的问题:
- 其他方法只能生成预定义的纵横比或分辨率
- 可能会过度挤压或拉伸不同分辨率的对象和背景
- 不能够有力地删除不重要的场景,以适当地强调对象性。
- 会切割太多背景,导致对象性表示太强;由于巨大的物体导致视觉效果差。
2.2.2 深度感知
为了更好地理解后处理(即,缩放到指定分辨率)对立体图像的影响,我们示出图11中的视差图。
根据图11的A部分中三个目标分辨率(90×120、120×120和160×120)的性能,我们发现MSTGAR的深度差几乎相同,这说明由于JNDD的限制,MSTGAR可以实现对深度差的有效感知。
如图11的B部分所示,七种方法具有固定的分辨率,我们观察到不同的方法具有不同的深度范围。
说明其他方法在低分辨率下并不强调深度知觉的可控性。
2.3 定量分析
为了客观地评估我们的MSTGAR,我们使用IoU度量进行定量比较。
由于之前定义的IoU指标是指提取的缩略图和ground truth真实裁剪窗口之间的交互区域除以它们的并集区域。 为了避免参考图像和生成图像之间的不适当匹配,下图所示,我们将IoU度量(IoU+)重新定义为缩略图和扭曲的ground truth网格之间的相交区域:
I
o
U
+
=
A
1
A
2
+
A
1
+
A
3
IoU+ = \frac{A_1}{A_2+A_1+A_3}
IoU+=A2+A1+A3A1
另外还有最初设计用于图像重定目标质量评估的两个指标,用于测量缩略图中的几何失真和信息丢失:
3. 2019-SIRQA13
3.1 数据集
作者制作了一个有关3D重定向图片质量评估的数据集NBU-SIRQA:
-
选择的源图像在图像内容和深度方面应具有足够的多样性:
- 所选场景包括自然景物、前景物体、几何结构、人脸和人物等室内外场景
- 在数据库中选择的源图像具有不同的视差范围,以反映舒适或不舒服的视觉感受。
-
选择和运用八种典型的SIR(立体图像重定向)方法生成重定向图片
-
参考图像和立体重定目标图像同时显示在屏幕上,参试者对图片进行评分。
- 立体重定目标图像的主观评分分为5级(优秀)、4级(良好)、3级(一般)、2级(差)和1级(差)。
- 30名研究生(男20名,女10名)参加了主观测试。
立体重定目标图像的主观评分分为5级(优秀)、4级(良好)、3级(一般)、2级(差)和1级(差)。30名研究生(男20名,女10名)参加了主观测试。
分类 | 简称 | 论文 |
---|---|---|
Seam carving | MSC (2D) | 14 |
scale | MSNS (2D) | 15 |
cropping | CPC | 1 |
scale | SSCL | (只需将原始图像缩放到目标大小) |
seam carving | GCSSC | 16 |
seam carving | VASSC | 17 |
warping | QOE (优化深度范围) | 18 |
warpping | SLWAP(优化深度范围) | 19 |
3.2 三维图像重定目标的客观质量度量
在前面的数据集的基础上,提出了一种通过测量网格变形和信息丢失(GDIL)的客观SIRQA度量。
与其他单纯考虑图像质量和立体视觉感知质量的方法不同,该方法的创新之处在于将每个SIR算子分解为两个变换来揭示人工立体视觉重定目标的变化。
近似估计重定目标变化有助于发现原始图像和立体图像之间的质量退化。所设计的MRT用于评估重定目标左、右图像的图像质量,而VPT用于评估三维视觉质量。
因此,通过将每个SIR算子分解为两个变换,可以更直观地定量测量立体重定目标的变化。下图展示了GDIL的框架:
3.2.1 MRT 特征表示
MRT的目标是调整原始单目图像(左或右)到目标纵横比。因此,MRT上的特征表示也与IRQA方法有关。本文利用网格的纵横比相似性度量来捕获二维重定目标的畸变。
首先,利用GBVS方法20获得视觉显著图,并将这张图与视差图融合在一起,形成一张视觉重要图:
V
=
η
1
⋅
N
(
S
I
)
+
η
2
⋅
N
(
S
D
)
V = \eta_1\cdot N(S_I) + \eta_2\cdot N(S_D)
V=η1⋅N(SI)+η2⋅N(SD)
在获得视觉重要性图后,利用SIFT-flow算法建立重定目标图像与原始图像的像素间对应关系
然后,根据SIFT流程图将原始网格内的所有像素映射到重定目标图像中(在原始图像中提取一组16×16的网格),得到重定目标网格。
网格变形是通过使用网格内的所有像素来估计的。我们计算每个重定目标栅格的最大宽度和高度,以测量栅格变形程度:
f
1
=
∑
i
∑
j
v
i
,
j
⋅
2
⋅
[
w
i
,
j
⋅
h
i
,
j
+
C
w
i
,
j
2
+
h
i
,
j
2
+
C
]
⋅
[
e
−
α
⋅
(
0.5
⋅
(
w
i
,
j
+
h
i
,
j
)
−
1
)
]
f_1 = \sum_i\sum_j v_{i,j}\cdot 2\cdot \big[\frac{w_{i,j}\cdot h_{i,j}+C}{w_{i,j}^2+h_{i,j}^2+C}\big]\cdot \big[ e^{-\alpha \cdot (0.5\cdot(w_{i,j}+h_{i,j})-1)}\big]
f1=i∑j∑vi,j⋅2⋅[wi,j2+hi,j2+Cwi,j⋅hi,j+C]⋅[e−α⋅(0.5⋅(wi,j+hi,j)−1)]
显然,f1值越大,说明图像结构保存越好。
但是像如上图所示的,当原始图像结构严重失真时,所测得的重定目标网格的最大宽度和高度可能与原始网格相同,在这种情况下,f1无法有效测量重定目标栅格的变形。
因此提出了另外一个特征计算,即信息损失。它是为提高网格变形测量的精度,定义为:
f
2
=
∑
i
∑
j
v
i
,
j
⋅
s
~
i
,
j
/
s
i
,
j
f_2 = \sum_i\sum_j v_{i,j}\cdot \tilde s_{i,j}/s_{i,j}
f2=i∑j∑vi,j⋅s~i,j/si,j
其中
s
~
i
,
j
\tilde s_{i,j}
s~i,j和
s
i
,
j
s_{i,j}
si,j分别表示重定位图像和原始图像的匹配网格中的像素数。
3.2.2 VPT特征表示
如前所述,视觉舒适度和深度感是影响SIR三维感知的两个关键因素。在这一小节中,我们提出两个VPT驱动的SIRQA立体感知特性测量。这两种测量方法被称为VPT网格变形和VPT信息丢失,类似于MRT上的特征表示。
首先,利用视差图[45]建立重定位的左右图像之间的关系。
然后,基于视差图提取出重定目标左图像中的一组网格(如16×16)和右图像中对应的网格。
根据每个网格的平均宽度和高度计算网格变形,以测量视差梯度在影响视觉不适方面可能发生的变化。
与MRT上的物体变形相比,由于视差的波动相对稳定,因此在VPT上只使用网格的四个顶点来估计网格的变形。VPT网格变形定义为:
f
3
=
1
M
⋅
N
∑
i
∑
j
2
⋅
[
w
ˉ
i
,
j
⋅
h
ˉ
i
,
j
+
C
w
ˉ
i
,
j
2
+
h
ˉ
i
,
j
2
+
C
]
f_3 = \frac{1}{M\cdot N}\sum_i\sum_j 2\cdot \big[ \frac{\bar w_{i,j}\cdot \bar h_{i,j}+C}{\bar w_{i,j}^2+\bar h_{i,j}^2+C} \big]
f3=M⋅N1i∑j∑2⋅[wˉi,j2+hˉi,j2+Cwˉi,j⋅hˉi,j+C]
其中,
w
ˉ
i
,
j
=
1
2
⋅
[
(
p
i
+
1
,
j
x
−
p
i
,
j
x
)
+
(
p
i
+
1
,
j
+
1
x
−
p
i
,
j
+
1
x
)
]
\bar w_{i,j} = \frac{1}{2} \cdot \big[(p^x_{i+1,j}-p^x_{i,j})+(p^x_{i+1,j+1}-p^x_{i,j+1})\big]
wˉi,j=21⋅[(pi+1,jx−pi,jx)+(pi+1,j+1x−pi,j+1x)]
h
ˉ
i
,
j
=
1
2
⋅
[
(
p
i
,
j
+
1
y
−
p
i
,
j
y
)
+
(
p
i
+
1
,
j
+
1
y
−
p
i
+
1
,
j
y
)
]
\bar h_{i,j} = \frac{1}{2} \cdot \big[(p^y_{i,j+1}-p^y_{i,j})+(p^y_{i+1,j+1}-p^y_{i+1,j})\big]
hˉi,j=21⋅[(pi,j+1y−pi,jy)+(pi+1,j+1y−pi+1,jy)]
由于深度知觉是同时从双眼视差和单眼遮挡中感知的,因此信息损失是根据视场外区域和遮挡情况计算的。
我们定义闭塞区和视野外区如下。
令
(
l
,
k
1
)
,
(
l
,
k
2
)
(l,k_1),(l,k_2)
(l,k1),(l,k2)分别为左图中的两个像素,D是视差图,如果满足一下关系,则称像素
(
l
,
k
2
)
(l,k_2)
(l,k2)遮挡
(
l
,
k
1
)
(l,k_1)
(l,k1):
k
1
+
D
(
l
,
k
1
)
=
k
2
+
D
(
l
,
k
2
)
∃
k
1
<
k
2
k_1+D(l,k_1) = k_2+D(l,k_2) \exist k_1<k_2
k1+D(l,k1)=k2+D(l,k2)∃k1<k2
如果一个像素满足以下关系则称该像素属于Out-FOV区域:
k
+
D
(
l
,
k
)
<
1
或
k
+
D
(
l
,
k
)
>
k
m
a
x
k+D(l,k)<1 或k+D(l,k)>k_{max}
k+D(l,k)<1或k+D(l,k)>kmax
则最后关于视差的信息损失计算定义为:
f
4
=
(
s
1
+
s
2
)
/
(
W
⋅
H
)
f_4 = (s_1+s_2)/(W\cdot H)
f4=(s1+s2)/(W⋅H)
其中
s
1
s_1
s1代表Out-FOV的面积,
s
2
s_2
s2代表遮挡区域的面积。
3.2.3 质量评估
最后得到,每个立体重定目标图像的八维质量向量:
f
=
{
f
1
L
,
f
1
R
,
f
2
L
,
f
2
R
,
f
3
L
,
f
3
R
,
f
4
L
,
f
4
R
}
f = \{f_1^L,f_1^R,f_2^L,f_2^R,f_3^L,f_3^R,f_4^L,f_4^R\}
f={f1L,f1R,f2L,f2R,f3L,f3R,f4L,f4R}
然后,作者通过随机森林算法,训练一个质量预测器,得到一组参数能够根据上面的八位质量向量,得到最终的质量分数。
4.2011-Scale21
4.1 定量分析
用户实验(user study):
这个任务要求他/她从一组随机放置在页面中的图片缩略图中浏览并选择一个口头描述的目标。在每个测试页面中,我们要求用户从“自行车”、“火车”、“鸟”等不同类型的图像中选择一个特定的图像,比如“猫”。
- 分别从准确度和选择图片的时间消耗长短来评判重定向方法的好坏
- 分别拿提出的方法与其他方法进行比较,使用来自方差分析(ANOVA)的信息进行多重比较检验,以区分提出的方法在两两比较中是否与其他方法显著。
4.2 定性分析
5.2019-User-Controllable22
5.1 定性分析
比较了提出的方法与三种先进的立体图像重定向方法,
5.2 观看配置,能量项的影响
5.3 定量分析
用户实验:测试用户的对哪个方法的结果更偏好
6.2019-Seam Manipulator23
6.1 定性分析
6.2 定量分析
6.2.1 用户实验
6.2.2 客观指标
6.3 衡量计算复杂度
7.2019-Object-occlusion24
7.1 定量分析
计算自定义的DDS分数:
8.总结评估方法
目前没有公开的用于评估缩略图质量的数据集,常见的评估方法有:
- 先从某些数据集中收集3D图像,并分别用自己的方法和当下的前沿方法处理这些图像,并讨论结果的优缺点
- 先从某些数据集中收集3D图像,并在上面做裁剪窗口标注,得到3D重定向裁剪数据集,并以此来计算IoU指标
- 收集深度范围不同,内容丰富的3D图像,并应用不同的方法生成结果,对这些结果做主观评分实验,得到3D重定向评分数据集
- 直接做主观用户实验,评价各个结果的好坏
- 提出一种有参考的客观质量评估的标准13
- 评估的变量包括多种其他方法的比较,还有多种尺寸的结果的比较,常用尺寸如下所示,来自25
9.公开常用数据集
9.1 常用的3D数据收集来源:
名称 | 内容 | 用途 | 来源 | 备注 |
---|---|---|---|---|
Stereoscopic Image Database | 来自Flickr, Stereoscopic Image Gallery, NVIDIA 3D Vision Live的1250 张立体图像对 | Salient Object Detection | Y . Niu, Y . Geng, X. Li, and F. Liu, “Leveraging stereopsis for saliency analysis,” in Proc. IEEE Conf. Comput. Vision Pattern Recognit., 2012,pp. 454–461. | MSTGAR-[42],Wang-[37] |
NJUDS2000 | 图片收集自互联网、3D电影和富士W3立体相机拍摄的照片;包括了立体图像对,深度图,显著性目标mask | Salient Object Detection | R. Ju, Y . Liu, T. Ren, L. Ge, and G. Wu, “Depth-aware salient object detection using anisotropic center-surround difference,” Signal Process.,Image Commun., vol. 38, no. 10, pp. 115–126, 2015.论文链接 | 下载链接MSTGAR-[43] |
参考文献:
Wang, W., J. Shen, Y. Yu, K. L. Ma and C. Graphics (2017). “Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection.” IEEE Transactions on Visualization: 1-1. ↩︎ ↩︎ ↩︎ ↩︎
M. Rubinstein, A. Shamir, and S. Avidan, “Improved seam carving for video retargeting,” ACM Trans. Graph., vol. 27, no. 16,pp. 1–9, 2008. ↩︎
B. Suh, H. Ling, and B. Benjamin, “Automatic thumbnail cropping and its effectiveness,” in Proc. 16th Annu. ACM Symp. User Interface Softw. Technol., 2003, pp. 95–104. ↩︎
J. Sun and H. Ling, “Scale and object aware image thumbnailing,”Int. J. Comput. Vision, vol. 104, no. 2, pp. 135–153, 2013. ↩︎ ↩︎
T. Basha, Y. Moses, and S. Avidan, “Geometrically consistent stereo seam carving,” in Proc. IEEE Int. Conf. Comput. Vis., 2011, pp.1816–1823. ↩︎
Y. Niu, Y. Geng, X. Li, and F. Liu, “Leveraging stereopsis for saliency analysis,” in Proc. IEEE Conf. Comput. Vision Pattern Recognition, 2012, pp. 454–461. ↩︎
Chai, X., F. Shao, Q. Jiang and Y.-S. H. J. I. T. o. Multimedia (2019). “MSTGAR: Multioperator-based Stereoscopic Thumbnail Generation with Arbitrary Resolution.” PP(99): 1-1. ↩︎
Y . Deng, C. C. Loy, and X. Tang, “Image aesthetic assessment: An experimental survey,” IEEE Signal Process. Mag., vol. 34, no. 4, pp. 80–106,Jul. 2017. ↩︎
J. Chen, G. Bai, S. Liang, and Z. Li, “Automatic image cropping: A computational complexity study,” in Proc. IEEE Conf. Comput. Vision Pattern Recognit., Las V egas, NV , USA, 2016, pp. 507–515. ↩︎
D. Li, H. Wu, J. Zhang, and K. Huang, “A2-RL: Aesthetics aware reinforcement learning for image copping,” in Proc. IEEE Conf. Comput. Vision Pattern Recognit., Salt Lake City, UT, USA, 2018, pp. 8193–8201. ↩︎
Y . Zhang, Y . Fang, W. Lin, X. Zhang, and L. Li, “Backward registrationbased aspect ratio similarity for image retargeting quality assessment,”IEEE Trans. Image Process., vol. 25, no. 9, pp. 4286–4297, Sep. 2016. ↩︎
C. C. Hsu, C. W. Lin, Y . Fan, and W. Lin, “Objective quality assessment for image retargeting based on perceptual geometric distortion and information loss,” IEEE J. Sel. Topics Signal Process., vol. 8, no. 3, pp. 377–389,Jun. 2014. ↩︎
Zhenqi, F. U. and F. J. J. o. C. A. Shao (2019). “Subjective and objective quality assessment for stereoscopic 3D retargeted images.” ↩︎ ↩︎
S. Avidan and A. Shamir, “Seam carving for content-aware image resizing,” ACM Transactions on Graph, vol. 26, no. 3, article no. 10, 2007. ↩︎
Y.-S. Wang, C.-L. Tai, O. Sorkine, and T.-Y. Lee, “Optimized scale-and-stretch for image resizing,” ACM Transactions on Graph, vol. 27, no. 5, article no. 118, 2008. ↩︎
T. Dekel Basha, Y. Moses and S. Avidan, “Stereo seam carving: A geometrically consistent approach,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 10, pp. 2513-2525, Oct. 2013. ↩︎
F. Shao, W . Lin, W . Lin, G. Jiang, M. Y u and R. Fu, “Stereoscopic visual attention guided seam carving for stereoscopic image retargeting,” Journal of Display T echnology, vol. 12, no. 1, pp. 22-30, Jan. 2016. ↩︎
F. Shao, W . Lin, W . Lin, Q. Jiang and G. Jiang, “QoE-guided warping for stereoscopic image retargeting,” IEEE Transactions on Image Processing, vol. 26, no. 10, pp. 4790-4805, Oct. 2017. ↩︎
C.-H. Chang, C.-K. Liang, and Y .-Y . Chuang, “Content-aware display adaptation and interactive editing for stereoscopic images,” IEEE Transactions on Multimedia, vol. 13, no. 4, pp. 589-601, Aug. 2011. ↩︎
J. Harel, C. Koch, and P. Perona, “Graph-based visual saliency,” in Proc. of Advances in Neural Information Processing Systems (NIPS), pp. 545-552, Dec. 2006. ↩︎
Sun, J., H. Ling and Ieee (2011). Scale and Object Aware Image Retargeting for Thumbnail Browsing. 2011 Ieee International Conference on Computer Vision: 1511-1518. ↩︎
Shao, F., L. Shen, Q. Jiang, F. Li and Y.-S. Ho (2019). “User Controllable Content Retargeting and Depth Adaptation for Stereoscopic Display.” Ieee Access 7: 22541-22553. ↩︎
Chai, X., F. Shao, Q. Jiang and Y.-S. Ho (2019). “Seam Manipulator: Leveraging Pixel Fusion for Depth-Adjustable Stereoscopic Image Retargeting.” Ieee Access 7: 25239-25252. ↩︎
Patel, D. and S. Raman (2019). “Object occlusion guided stereo image retargeting.” Pattern Recognition Letters 125: 798-805. ↩︎
Niu, Y. (2012). “Aesthetics-Based Stereoscopic Photo Cropping for Heterogeneous Displays.” IEEE Transactions on Multimedia 14(3): 783-796. ↩︎