编者按:李白在《秋登宣城谢脁北楼》中曾写道:
“江城如画里,山晓望晴空。
两水夹明镜,双桥落彩虹。”
通过对视野内景物位置关系的描写,一幅登高远眺的秋色美景图宛在眼前。而在计算机视觉领域,这几句诗其实体现了场景内物体之间的关系,对于场景理解的重要性。
今天,来自中科院信息工程研究所的刘偲副研究员,将从生成对抗网络(GAN)讲起,讲述如何通过对场景内物体及物体之间关系的梳理,让机器“析毫剖厘”,以实现对场景的理解以及对图像的编辑。
文末,大讲堂提供文中提到所有参考文献的下载链接。
图像理解与编辑涉及两方面的内容:首先获取图像中蕴含的丰富信息,然后按照需求对图像进行编辑。下图展示了图像理解问题的具体示例,对于某个场景,我们提取图像中的背景,如墙壁、桌椅等物体的信息,也可以解析图像中的重要元素——人,即对人的身体、服饰等部件进行分类、分割,进一步的还可对人脸进行解析,定位头发、五官等部位。图像理解与编辑具有广泛的应用场景,比如自动驾驶、娱乐产品、视频监控和增强现实等方面。
本文将主要介绍以人为主体目标的图像理解与编辑任务。首先介绍人脸编辑。在图像编辑方面,生成对抗网络(GAN)发挥着重要的作用,所以这里首先介绍一下GAN的基本原理以及当前的主要发展方向。GAN由Ian Goodfellow在2014年提出,采用了两个网络相互对抗的训练模式,已成为生成模型中里程碑式的工作。GAN包含生成网络G和判别网络D,G生成数据,D判断数据是否来自真实的数据。在训练时,G尽可能生成的数据迷惑D,而D尽可能区分出数据是否来自真实的分布,通过这种对抗式学习,模型最终能够生成非常真实的图片。这一工作也得到了Yann Lecun的高度评价,被其称为近十年来机器学习领域中最有趣的想法之一。
从2014年GAN的提出,实现了从噪声生成图片功能后,生成对抗网络的研究方向越来越多。原始的GAN只是从随机噪声生成图像,缺少对生成图片的控制,所以紧随其后就有研究者提出了Conditional Generative Adversarial Nets。其通过改变输入条件,可以控制图片的生成结果。同时,以DCGAN为代表的一系列工作探索了适用于GAN的网络结构。也有研究者为了解决模式坍塌等问题,提出了更多的网络形式进行对抗学习的研究,如GMAN。 修正GAN的对抗损失函数的工作也在一直进行中,WGAN是其中非常引人瞩目的工作。此外,要拟合真实数据背后的分布度量,常常需要对D网络进行正则化, SN-GAN提出的谱归一化是其中的代表性工作,其可在IMAGENET数据库上训练成功,生成1000类的图像。最后,提高大图像的生成质量也是GAN的一个重点的研究方向。英伟达提出的PG-GAN即是这样的工作,可以生成1024x1024的高清真实图像。
总而言之,GAN由最开始的随机噪声生成图片,逐渐在众多领域得到发展。有研究者使用GAN研究半监督学习问题,也有研究者进行图像到图像的生成探索,如给定轮廓图生成正常的图片,另外还有文本到图像的生成以及域自适应任务。域自适应任务旨在提升模型对跨域数据的泛化能力,如在一个数据集上训练好图像分析的模型,通过域适应的方法,在其他不同的数据集上仍然能够表现出较强的能力。此外还有人用GAN来做对抗样本的攻防,旨在解决生成模型的正确性和安全性的问题。
基于GAN,在人脸图像编辑方面,我们课题组主要进行了智能美妆方面的研究,属于图像到图像的生成领域的探索。首先我们构建了一个较大的美妆数据库,包括东方风格和西方风格的子数据库。东方风格包括复古妆、韩妆、日妆、素颜和烟熏妆,西方风格包括彩妆、素颜和烟熏妆。如图所示,每种妆容都有明确的定义。
除数据库外,我们基于生成对抗网络对智能美妆模型做了一定的改进,这项工作目前还在进行中。具体包括两方面改进,第一基于大规模的人脸数据库辅助生成更高质量的美妆图像,目前是基于20万张的celebA人脸图像数据,选取包括是否为浓妆在内的总共三个人脸相关的属性,利用粗标注数据库完成智能美妆任务的辅助训练,从而使美妆属性的编辑更加细致。此外我们提出了新的网络结构。因为人脸编辑任务更多是人脸的微调,希望化完妆人的身份信息保持不变,我们的网络强调保持妆前妆后基本一致,更好的保持了图像的主体信息,更专注地编辑妆容条件。
观察实验结果,各种妆容的编辑结果比较真实、自然,没有明显的网格。各种妆容的特点也比较明显,如亚洲风格妆容中复古妆的腮红、韩妆渐变的咬唇妆,比较淡的日妆以及特征明显的素颜和烟熏妆,同样欧美风格的妆容也有较好的编辑效果。值得一提的是,由于素颜类别的存在,我们的方法也可以实现卸妆的功能。
针对人脸编辑的另一个应用是人脸老化。下图中间是当前给定图片,通过人脸老化算法可以生成7个不同年龄段的人脸图像,即可以变年轻如10岁以下,也可以变老如一直到60岁以上。它的应用很广泛,比如可以辅助跨年龄段的人脸识别。身份证照片常常是很多年前拍摄的,长时间没有更新导致人证对比存在一定的难度,那么此时人脸老化的就可以辅助身份证的人证识别。另外比较有用的应用是寻找丢失的儿童,比如小孩走丢了,只有他很小的照片,人脸老化可以辅助生成长大后的样子,我们希望可以通过这样的算法,能够实现跨年龄的身份识别。此外人脸老化编辑还可以应用到互动娱乐应用中。
我们提出的方法也是基于GAN的。在传统的conditional GAN的基础上,我们综合考虑了不同年龄段人脸的形状和纹理变化。具体实现细节可参考我们的相关论文。下图是我们的结果,第一列是原始图片,右边七列分别是不同年龄条件下的生成结果。可以看到年龄较小时,脸型都相对较小,皮肤也很光滑,而从30岁到60岁,胡子越来越白,同时会出现鱼尾纹或者皱纹。例如第四行输入是一个老太太,模型能够生成她比较小的样子,皮肤非常光滑,同时很像这个人。
接下来介绍整个框架第二部分,就是人的部分。人体解析定义是这样的,给定一张图,去解析人的头发、人脸、胳膊(手)等部位,以及上衣、裤子、鞋等衣着。人体解析的相关工作非常多,由于篇幅限制不再详细说明。而数据集方面主要是中山大学发表在CVPR2017上的Look into person,它应该是目前最大的人体解析数据库。
我们在人体解析方面的最新研究是有关跨域人体解析。因为比如想在多个城市建立图像分析系统,不可能在每个场景都标注很多数据,但是不同应用场景很多条件确实不一样。所以我们希望一旦建立了较好的模型,通过跨域的方法,该模型放在其他的特定场景中也可以使用。比如数据库标了很细致像素级的分类,这些库姿态多变,光照很多,数据量大。我们在实际应用的时候,比如想应用在室内餐厅,或者室外街道,这种情况下重新标注数据的代价是非常大的,而直接使用预先训好的模型效果又不是特别好。我们想研究的就是已经训练好的模型怎么使用。
跨域学习是近年来的一个研究热点,相关论文很多。比如,Ganin等人提出了一种新的基于深度网络结构的方法来做域变换,该方法促进网络学习一种深度特征:既能对主要的学习任务上得到区分,又能在不同域之间达到一致。MY Liu等人提出了一个耦合生成对抗网络(coupled generative adversarial network, CoGAN)来学习关于多个域图片的联合分布。Long等人提出的一种新的深度变换网络框架,通过MK-MMD将适应于特定任务的深度特征进行变换,而Chen等人提出了对抗姿态网络,潜在地考虑到了人物的结构。
当前已经存在的域变换方法,都是单一考虑特征变换或者简单地考虑结构性的标签变换,而我们同时考虑了特征变换和结构性的标注变换。首先一方面,每个域的特征空间是不同的。例如餐厅中的图片光照比室外中的光照要暗很多,监控图片的视角和手持相机拍摄也是不同。因此我们通过对抗特征变换最小化这种差异。然后另一方面源域和目标域中的人物都有着固有的相同点,例如人体部件的关系大概是相同的,左右胳膊、腿分布在身体的两侧等。因此我们通过对抗式结构标签变换来最大化这种共性。
最后一个任务是综合考虑到人和场景。今年ECCV的一项竞赛就是我们和奇虎360公司以及新加坡国立大学(NUS)一起举办的。比赛的主要任务还是集中于人这一目标,希望能够获取图像中最重要的元素——人的信息。
Person In Context (PIC) 2018 (http://www.picdataset.com/) 将于2018年9月9日在德国慕尼黑的ECCV 2018的workshop "1st Person in Context (PIC) Workshop and Challenge" 上举办。我们从真实场景收集了约1.5万张图像,平均每张图包含4个人。这些图像包含复杂的人的姿态、丰富的拍摄视角、不同程度的遮挡和图像分辨率。每一张图片都包含了人和物体像素级别的语义分割、场景分割以及人和人/物体的关系标注。在客观世界不计其数的类别中,人是最特殊的一类。因此本竞赛在任务设定过程中,着重考量了以人为中心的关系分割 (relation segmentation)。传统的关系预测,比如Visual Genome,以及Google 的Open Image Challenge 的关系都是定义在矩形框(bounding box)上的。PIC竞赛的特别之处是,其关系是定义在分割区域(segmentation)上的。
以人为中心的关系分割包括该人的和周围物体的动作关系、位置关系等。以左图为例,人A在人B的旁边。再比如右图,人A在人C的后面。关系分割的形式是<主语,关系,宾语> 形式的三元组。值得一提的是,关系都是建立在人和物体的场景像素级别分割之上的。
以下为数据库的标注展示,可以看到该数据库涵盖了丰富的全景分割和关系分割。
上图是PIC跟现有数据库的区别。Visual Genome是知名的关系数据库。其关系是定义在bounding-box上,PIC库的关系是定义在像素级别的分割之上。这种更细粒度的标注,使得定义的关系更为精确,也更符合实际应用的要求。
我们竞赛时间安排及竞赛信息如下,同时我们还提供了众多显卡作为竞赛奖品。冠军队伍可以获得2块TitanV 显卡。
总结一下,我们的工作由小及大,包含了人脸,人以及人-物关系三个层面的内容。我们会在这些领域继续进行探索。
文中提到参考文献的下载链接为:
https://pan.baidu.com/s/1L-zbu8Sbtcf1mou2DYhjhg
密码:1282
--end--
主编:袁基睿 编辑:程一
该文章属于“深度学习大讲堂”原创,如需要转载,请联系Emily_0167。
作者信息:
作者简介:
刘偲, 现为中科院信息工程研究所网络空间技术实验室副研究员。本科毕业于北京理工大学校级实验班,博士毕业于中科院自动化所,曾于新加坡国立大学任研究助理及博士后。其研究领域是计算机视觉和多媒体分析,具体包括图像的语义分割,实例分割,图像标注,图像编辑等。2017-2019年中科协青年人才托举工程入选者,微软亚洲研究院铸星计划研究员,CCF-腾讯犀牛鸟科研基金获得者。
个人主页:http://liusi-group.com
往期精彩回顾
算法及大V们你们够了:如果CV界也有朋友圈...I 春节特刊
欢迎关注我们!
深度学习大讲堂是由中科视拓运营的高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息!
中科视拓(SeetaTech)将秉持“开源开放共发展”的合作思路,为企业客户提供人脸识别、计算机视觉与机器学习领域“企业研究院式”的技术、人才和知识服务,帮助企业在人工智能时代获得可自主迭代和自我学习的人工智能研发和创新能力。
中科视拓目前正在招聘: 人脸识别算法研究员,深度学习算法工程师,GPU研发工程师, C++研发工程师,Python研发工程师,嵌入式视觉研发工程师,运营经理。有兴趣可以发邮件至:hr@seetatech.com,想了解更多可以访问,www.seetatech.com
中科视拓
深度学习大讲堂
点击阅读原文打开中科视拓官方网站