学习cvpr 论文《A Common Framework for Interactive Texture Transfer》
一.论文介绍
1.1 论文下载
论文:
http://openaccess.thecvf.com/content_cvpr_2018/papers/Men_A_Common_Framework_CVPR_2018_paper.pdfopenaccess.thecvf.com1.2 论文作者
- Yifang Men【Institute of Computer Science and Technology, Peking University, China】
- Zhouhui Lian【Institute of Computer Science and Technology, Peking University, China】
- Yingmin Tang【Institute of Computer Science and Technology, Peking University, China】
- Jianguo Xiao【Institute of Computer Science and Technology, Peking University, China】
1.3 作者介绍
A. 门怡芳
北京大学计算机科学技术研究所研究生
B. 连宙辉
1985年5月出生于福建福州。北京大学计算机科学技术研究所副教授(2015.8~),北京大学计算机科学技术研究所讲师(2013.6~2015.8),北京大学计算机科学技术研究所博士后研究人员(2011.7~2013.6),美国国家标准与技术研究院(NIST)信息技术实验室Guest Researcher(2009.7~2011.7),英国卡迪夫大学计算机学院Academic Visitor(2008.1~2009.1)。博士毕业于北京航空航天大学自动化科学与电气工程学院,本科毕业于南京航空航天大学自动化学院。目前以项目负责人身份主持一项国家自然科学基金面上资助项目和一项国家语委重点项目。研究方向为计算机视觉、计算机图形学、字形计算、模式识别与人工智能。最近几年内,以第一作者或通讯作者身份在国际重要乃至顶级的杂志(IJCV, TOG, Pattern Recognition)与会议(CVPR, IJCAI, SIGGRAPH Asia, 3DIMPVT, SMI, ICIP等)上发表论文三十多篇。
C. 唐英敏
唐英敏1962 年出生,高级工程师。在北大计算机科学技术研究所从事排版软件的研制开发工作,主要从事文字处理方面的研究,先后开发出飞腾中文(简、繁体)排版软件、日文报纸排版软件和藏文排版软件。研究方向:文字与图形图象信息处理,中国少数民族文字信息处理,中文信息处理及其国际化
D.肖建国
肖建国,1957年3月出生于辽宁鞍山。1987年在北京大学计算机科学技术研究所任讲师、副教授、教授,曾任北大计算机所所长,兼北大方正集团首席技术官。研究方向:图像、影像处理,网络信息处理,文本挖掘技术。
1.4 论文作者发表论文
A. 连宙辉
- 《SCFont: Structure-guided Chinese Font Generation via Deep Stacked Networks》AAAI 2019
- 《 A Common Framework for Interactive Texture Transfer》 CVPR 2018 (Spotlight)
- 《Incremental Kernel Null Space Discriminant Analysis for Novelty Detection》 CVPR 2017
- 《Awesome Typography: Statistics-Based Text Effects Transfer》 CVPR 2017
1.5 论文摘要
本文提出一个通用的解决交互式纹理传输问题的方案,它能更好地保持局部结构和视觉丰富性。由于任务的多样性和所需用户指南的简单性,它具有挑战性。这个通用框架的核心思想是使用多个自定义通道动态地指导合成过程。对于交互性,用户可以通过语义通道控制风格化纹理的空间分布。该结构由结构信息的自动提取和传播两个阶段获得,为初始化提供了先验条件,并通过搜索具有结构相干性的最近邻域(NNF)来保持突出结构。同时,利用纹理的一致性来保持与源图像的相似风格。
二.论文内容
2.1 论文背景
本论文出自北京大学计算机科学技术研究所“字形计算技术实验室”。“字形计算技术实验室”的前身可以追溯到1977年成立的以“国家最高科学技术奖”获得者王选院士等为技术骨干的北京大学“汉字信息处理技术研究室”。实验室成员中,肖建国教授曾任北大计算机所所长,兼北大方正集团首席技术官,并担任“电子出版新技术国家工程研究中心”主任和“中国文字字体设计与研究中心”学术委员会主任。 北京大学计算机科学技术研究所“字形计算技术实验室”一直在做字库字形方面的研究,目标是用户和字体设计师可以方便的设计各种各样的字体,包括印刷体,手写体,彩色字库。
大家知道汉字数量非常庞大,并且有些汉字非常复杂。
所以设计各种各样的特效字非常困难,耗时而且费力。
上面是刘家瑛老师在2017年cvpr上发表的《Awesome Typography: Statistics-Based Text Effects Transfer》提出一种方法,可以把设计好的一个动态字迁移到其他所有的字形中,可以生成一个特效字库,这种方法可以实现一类纹理的特效迁移。
本文作者做了一些实验,发现特效字的纹理有很多的类型,当遇到更复杂的纹理,这种方法效果就不是很好,
有内部结构的特效字,利用传统的方法做迁移,迁移效果就不是很好,如上图中的西瓜的图像,西瓜皮可以迁移过去,其他迁移不过去。还有强烈的结构新的图像,迁移不过去。 本文的方法可以解决以上这些问题,并且可以用于其他目标,如涂鸦艺术作品的生成,和纹理的互换,所以这个框架是一个通用的框架。
下面三个工作都是有很强烈的风格化效果的应用:
neural-doodle ,Alex J. Champandard et al.2016,top20 on github 2016
https://github.com/alexjc/neural-doodlegithub.com刘家瑛 《Awesome Typography: Statistics-Based Text Effects Transfer》
DecoBrush: Drawing Structured Decorative Patterns by Example,Jingwan Lu et al.
Drawing Structured Decorative Patterns by Examplegfx.cs.princeton.edu上面的三个工作的共同特点是使用了用户引导的交互式纹理生成,如涂鸦的画作,文字的生成,纹理的生成。
本文作者的目标是创建一个通用的框架,对于用户引导的纹理迁移有很好的效果,比如: - 实现由涂鸦到画作, - 实现装饰性纹理的字形生成, - 实现特效字的生成, - 实现控制纹理特效的 - 实现纹理的互换
在现有的方法中,如前面提到的《DecoBrush: Drawing Structured Decorative Patterns by Example》和《Awesome Typography: Statistics-Based Text Effects Transfer》的方法,都是面向特定领域做的工作。
SIGGRAPH 2001中Image Analogies的工作,Image Analogies 是“图像类比”概念的实现,通过使用神经网络匹配和融合,以达到图像类比的效果。即系统“学习”从 A 到 A' 的转换,然后将该转换过程应用于 B 来获得 B' 。换句话说,我们计算 B' 来完成类比。
Image Analogies在处理内部有复杂结构纹理的图像的时候会造成纹理错位,而且这种方法会造成图像中的高频信息丢失。
Siggraph 【SIGGRAPH (Special Interest Group on GRAPHics and Interactive Techniques 是图形学及互交技术特殊爱好者集团的简称) 是由ACM( Association for Computing Machinery 计算机机械协会) SIGGRAPH 组织举办的关于计算机图形学的会议。】2013发表的《Painting by Feature: Texture Boundaries for Example-based Image Creation》
这篇工作是生成手绘图像,它适用于近似纹理的图像生成。
神经涂鸦(neural-doodle)只能用于生成艺术风格的画作,它对接近正常的照片的不能生成想要的效果,另外它有很多low level的噪声。
下面是siggraph 2017年发表的工作,叫《Visual Attribute Transfer through Deep Image Analogy》。
它是输入两张具有不同内容却有相似语义的图像,比如两张图的主体是同一种类别的物体,并利用高层抽象特征建立起了两张图的内容的语义对应关系。 这种图像视觉属性迁移方法可以在结构上基本保留两张图中内容图的内容及结构,同时融入参考图的视觉属性。和之前的算法不同的是,这种方法甚至适用于输入是真实照片,输出也希望是真实照片的任务,即可以达到像素级别的迁移。
这种方法当处理输入非常简单的涂鸦语义图,不能有很好的效果,它对纹理非常少的区域有激活神经元的强度也低。
输入三张图,分别是输入素材语义图 source_ sem、素材风格图 source_ sty 及目标语义图target_ sem,能够自动生成具有目标语义和素材风格的目标风格图 Target_ sty。 它对于边缘区域,由于有丰富的语义信息指引,所以能很好的找到patch来映射,但是对于内部大面积区域的区域,它可以在source_ sem中选择任意的patch(d,e)填充target_ sem中的b,复制生成效果,但是到底用哪个是个问题。
从上图可以看出因为边缘有很丰富的语义信息,可以通过丰富的语义信息指引来直接完成patch的映射,而对于内部区域需要依赖边缘信息传过来的纹理信息,和使用纹理信息的一致性,以及结构信息的引导,才能使映射达到很好的效果。
2.1 网络设计
下面是本文方法的框架:
整个流程如上图所示, 主要包含结构信息提取、结构信息传播和引导性的纹理迁移。
1)结构信息提取。
a. 显著性检测saliency detection
通过显著性检测(saliency detection),使用tpami 2012 《Context-Aware Saliency Detection》的工作,提取出语义图和风格图的显著性信息。
b.结构定义structure definition
对于语义图和风格图的显著性信息,进行相减的操作,把原先语义图的显著性的区域去除掉,上图只是为了演示用,上面的虚点其实是不存在的,只有大面积的白色块,是本文作者认为的显著性结果信息。
2)传播结构信息(structure propagation)
把语义图中的边缘做一个显著点的提取,依据素材语义图和目标语义图的形状相似性,找到个映射关系,将素材风格图中的具备显著的区域结构信息的像素点映射到目标图像中,这样就可以做结构信息的引导。
对于这种结构信息,还采用图像金字塔的方式进行传播,从粗到细的方式构建它的结构信息图。
3)引导纹理传输guided texture transfer
为了实现引导性的纹理迁移,定义了以上的能量函数,包含三个项,包括语义能量项,结构能量项和纹理一致性能量项。语义引导项用到了参数是随着时间的推移不断衰减,也就是初期语义引导很强,后期语义引导就很弱。结构引导项是参数随着两个形状(source和target)的相似性的强弱而变化,相似性越强,引导项越强,它的值都是0到1之间。
可以根据source的语义图上面的patch和target的的语义图上的patch的l2的距离来衡量相似性。Patch之间还有一个映射,他们有反转变换还有旋转变换。纹理一致性计算了source风格图上的patch和目标风格图上的patch的相似性。
结构引导计算了t_struct上的patch和风格图上的patch的相似性。
目标是让能量项最小,类似em(expectation-maximization)算法去优化这个问题。在e-step中用的是vote的操作,在m-step中用的是search操作,在source中找到最好的patch,在vote中找到patch来融合。
下面是伪代码:
在语义金字塔中粗到细,逐层的进行寻找最优的匹配和融合。从粗到细进行em算法search和vote的操作,在每一步执行完,对下一层的语义图还有结构图分别进行初始化,用于下一步的迭代生成。
2.3 实验结果
把涂鸦图变成很好的艺术图
生成线条图。
生成特效字,还可以控制纹理的分布。
纹理的交换。
本文在不同任务场景下和其他 state-of-the-arts 方法进行了对比实验,可以看出本文的方法在内部有强烈结构纹理信息迁移得到更好的效果。
本文做了用户调查实验,在真实度比其他的方法都要好。
本文的方法还有一些问题,在图像背景的光线变换比较明显的情况下效果不是很好。
当背景出现渐变的光线,效果也不是很好,本文没有考虑缩放的情况,所以在大的纹理图上效果会差。
三. 结论
本文提出了一个结构指导的交互式纹理传递的一般框架。该方法可以自动将样式从给定的源图像迁移到用户控制的目标图像,同时保持结构的完整性和视觉丰富性。更具体地说,作者引入了通过自动提取显著区域和传播结构信息获得的结构指导。通过将结构通道与语义和纹理一致性结合起来,可以实现指导纹理转移。实验结果表明,所提出的框架广泛适用于许多纹理转移挑战。尽管目前大多数模型都倾向于使用基于神经的方法进行样式转换,但本文的结果表明,简单的传统的纹理合成框架仍然可以表现出优异的性能。
本文作者当前的工作,生成动态的纹理特效图。