有趣又有料:任意操控静态图片中人的眼球

DeepWarp是一款基于深度学习的视线操控技术,能够将静态图片中的人物眼神转化为动态视频,支持多种眼球运动方式。该技术由俄罗斯科研团队研发,并在ECCV会议上发表。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载: http://mp.weixin.qq.com/s/PF3sb5mgFEgtYRrw5YJDEQ

最近深度学习学术圈出现了一个很有趣的演示demo:DeepWarp。输入一张包含人脸的静态图片,通过该demo上传至服务器,经过云端处理,一两秒内就可以生成旋转、左右移动、上下移动、斗鸡眼四种方式的眼球运动。这种技术称之为视线操控(Gaze Manipulation)。


这款demo你值得拥有


DeepWarp 的 演示demo 地址如下,不需要翻墙哦:http://163.172.78.19/


该demo目前只支持png, jpg, jpeg三种图片格式,图片最大不能超过300KB,长宽超过400个像素会被自动重置大小。操作也非常简单,如下图所示:

上传好图片,点击选择右边任意一种眼球运动方式,下方就会生成对应的视频。对着视频右键可以保存为mp4格式的视频。如果想要做成动态图,推荐使用这个在线的视频生成动态图网站,无需下载软件,一键操作,非常好用。

https://ezgif.com/video-to-gif


先不谈学术,先看看好不好玩再说!不好玩不要钱!下面是根据该demo的测(搞)试(怪)结果。


眼睛清晰度较高

先来个美女养养眼~

这张图片大小适中,人物面部清晰,眼睛也比较清晰。从图上来看,眼皮、眼睫毛和眼球的运动是统一的。如果仔细看的话,瞳孔里的反光也是和眼球运动统一的。总之,这张图看起来毫无违和感,效果棒棒哒!

背后的技术


玩的差不多了,可以稍微了解一下背后的技术。


团队背景

这款看起来非常逗逼的demo实际上背后的技术非常高端大气上档次。没错,你猜对了,正是目前火到爆的深度学习技术。


DeepWarp是由俄罗斯Skolkovo Institute of Science and Technology的Yaroslav Ganin、Daniil Kononenko、Diana Sungatullina 和 Victor Lempitsky联合研发的。其成果在2016年发表在计算机视觉领域的三大世界顶级会议之一的ECCV上。文章标题为:《DeepWarp: Photorealistic Image Resynthesis for Gaze Manipulation》,可以在网上下载到。


目前的demo是今年3月份最新更新的,效果比当时发论文时提高了不少。


技术简介

该技术的算法流程如下:

1、首先进行人脸检测,然后使用第三方的人脸对齐库找到眼睛所在的区域。所以该算法无法处理卡通形象和动物等非人类面部,这在前面实验阶段也得到了验证。

2、神经网络输入:人眼的区域、眼部特征点、需要校正的视线角度alpha。

3、将上述的输入传入训练好的前馈多尺度卷积神经网络中,然后该网络可以输出一个预测的光流场。预测过程是从粗糙到精细(coarse-to-fine)的两个阶段。

4、将上一步得到的光流场应用到输入图像里的人眼区域,就产生了经过视线校正后的人眼图像。

5、最后利用训练 好的专门用于光线自适应校正的神经网络对输出图像进行光线调整,使得结果表现自然。


数据集

由于没有公开的专门用于连续变化角度的视线校正数据集,该demo的创建者们只能自力更生。他们请了33个人用如下自创的设备进行视频采集。


每一个视频需要被试者看200个固定的位置点,每个人录制2-10个视频,包括不同的头部姿态和光照条件。最后他们还要人工去除那些眨眼的、没看对位置的等不能用的部分。想想这其实是很大的工作量了(科研不易啊。。)。


他们的训练集中视线范围是-30°到+30°。所以前面我的测试中可以看到,当视线偏移角度较大时效果会急剧下降,因为训练集中缺乏这样的样本


实验对比结果

作者拿该算法和同类的算法做了量化的结果比较和视觉结果的比较。


下面是在不同矫正角度下的误差分布,纵坐标值越小算法性能越好。可以看到作者提出的CFW(coarse-to-fine warping) + LCM(lightness correction module)方法的性能在所有的算法中效果最佳。

下图是和同类算法的视觉效果对比。其中+LCM对应的是本文提出的方法的结果,GT(ground truth)是真正的结果。图有点小对比结果看起来不是很明显,如果仔细看大图的话可以发现该算法在细节、光照的自适应上都是更胜一筹的。


算法鲁棒性

DeepWarp算法在应对不同头部姿势时表现还是相当稳定的,这得益于训练数据集中提供了从-30°到+30°头部姿态变化范围内的视频。另外,考虑到很多戴眼镜的美女和帅哥,所以训练集中也已经包含了这种情况,实验也验证了如果佩戴普通透明眼镜并且没有强烈反光的情况下效果还是岗岗的。


但是也会有失败或者效果很差的情况。包括:极度倾斜的头部姿势、较大的重定向角度等。不过,这些可以通过增加对应的训练数据集来得到解决。


应用场景

1、视频会议中的视线调整。

2、头部特写情景。比如节目录制时,讲话者看摄像机旁边的提词器从而导致视线偏离镜头时。

3、图片编辑。

4、影视后期制作。可以根据导演的需要对演员的视线进行重定向。

5、脑洞有多大,应用就有多广。





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值