编 | 韦世玮
导语:三星科研人员研发出新的AI图像合成系统,通过单帧图像即可生成高度逼真的动态人物头像。
智东西5月25日消息,据Techcrunch最新报道,来自三星的机器学习(Machine learning)研究人员开发出了一个系统,它可以将单帧的人脸图像重新合成惟妙惟肖的表情动图。这一成果给将照片和绘画作品变成动画的设想带来了可能性。
其研究论文名为《针对逼真可说话神经头像模型的Few-Shot对抗性学习(Few-Shot Adversarial Learning of Realistic Neural Talking Head Models)》 ,于2019年5月20日提交。
但这本身并不新鲜,因为这类系统早已在人工智能合成图像领域被大家广泛地研究以及讨论。
如今的合成图像技术已经能做到在视频中把原角色的脸替换成另一个人的脸,且替换角色的表情和动作都十分逼真,常人难以捕捉到修改的痕迹。但这些图像的制作通常需要大量数据,例如一至两分钟的视频分析。
一、单镜头学习即可完成人脸的高效匹配
三星人工智能中心(Samsung AI Center)发表的论文记录了这个系统。论文研究表明,系统通过训练卷积神经网络,生成高度逼真的动态人物头像。基本原理是使初始头像获得模拟头像,并指定需模拟的动作或表情,通过系统加工后将初始头像转化成动态的人物头像。
在研发过程中,为了让动态人物头像看起来更具个性化,研究人员需要不断地对图像大型数据集进行训练。同时,在许多实际场景中,个性化的动态人物头像还需要学习多个甚至单个图像视图。
目前,在人工智能合成图像领域中,动态人物头像的生成需要进行大量的数据分析。而据三星驻莫斯科的研究人员发表的论文显示,他们新研发的系统进行动态人物头像生成只需使用一张人脸图像。
一方面,系统在人脸地标识别过程中预先加载大量的数据,从而使自己能更高效地寻找初始头像与模拟头像相应的部分。
另一方面,虽从理论上来说系统拥有的数据越多越好,但三星研发的新系统可以只通过一张图像来完成初始头像与模拟头像的匹配工作,生成一张能做出转动、说话和普通表情等行为的人物头像,且效果与其他需要大量数据生成的系统相比并无太大差异。
尽管动态人物头像的效果并非完美无瑕,但它却具有令人信以为真的表现力。
二、生成对抗网络引导人物头像“优胜劣汰”
有趣的是,该系统在重建动态人物头像的过程中,还使用了生成对抗网络(Generative Adversarial Network)。其本质上是让两个人物头像互相竞争,一个头像试图“欺骗”另一个头像,让它认为自己是“真实的”。
系统正是通过这些方式,使动态人物头像的生成效果达到制作者所设定的真实性标准。例如,生成对抗网络中的“鉴别者”头像确定另一头像为“真实“人脸的概率必须达到90%,系统才能继续进行后续的工作。
然而,在研究人员提供的其他动态人物头像例子中,发现生成的动态人物头像与初始头像相比存在一定的质量差异。有人曾试图从有线新闻中复制人物图像并重新完善图像的新闻标签等内容,但生成的动态画面有着明显加工过的痕迹。
这也就说明,尽管该系统所生成的动态人物头像效果还不错,但只适用于人的脸部和上半身。
论文链接:https://arxiv.org/abs/1905.08233
文章来自:Techcrunch、Cornell University