点击上方“CVer”,选择加"星标"置顶
重磅干货,第一时间送达
蕾师师 发自 凹非寺
来源:量子位(QbitAI)
只要一张照片、一段视频,就能让特朗普跟着蔡徐坤「唱、跳、Rap、篮球」!
像这样。
这就是来自上海科技大学团队的一项新研究,在提出的新框架内,处理人体图像合成任务。
其中包括人体运动模仿、外观转换和新视角合成等。
并且,该项目的代码、数据集已开源。
建立模仿数据集
首先,研究团队建立了一个具有多种样式、不同人物穿不同衣服的数据集,称为Impersonator(iPER)数据集。
研究人员采集了30个研究对象的数据,他们的体型、身高各不相同。每个研究对象穿着不同的衣服,完成一套指定动作和一套随机动作。
整个数据集有206个视频、包含241564帧画面。
206个视频以特定的命名保存,例如“ xxx_yyy_zzz.mp4”,其中:
xxx:演员姓名
yyy:外观编号,不同的编号表示不同的衣服
zzz:动作类型,1代表姿势,2代表随机姿势
如何保留人物细节特征?
目前,主要是用2D图片来确定肢体的结构和动作,但是这远远不能满足这里的需求。
这里采用了3D网格肢体复原形式来提取动作和姿势,即可以模拟关节的位置和旋转,又能够表现出个性化的身体形状。
但是纹理、样式、颜色又该怎么保留呢?
针对这个问题,研究者提出了注意型液化GAN。
通过降噪卷积自动编码器提取特朗普的身体特征,然后经过GAN不断地训练学习、微调、监督、转化,将低分辨率的模型转变成高分辨率的模型,使输出来的视频图像清晰。
整个模型的工作流程大致如下:
(a)首先,肢体网格恢复模块将每个图像的3D网格图绘制好。
(b)其次,流组模块将计算图像空间中的投影顶点,将图像分成动作前景图和背景图。
(c)最后,GAN模块生成三个层,第一层是背景层,第二层是临摹出来的动作层,第三层是参考保留细节层。
注意型液化GAN
在本文中,不仅提出了注意型液化GAN,还提出了一种带有注意型液化块AttLWB(Attentional Liquid Warping Block),两者共同运作,输出高真的模仿图像。
(a)addWB结构,获取了GTSF的数据,生成自己的数据模型。
(b)(Attentional) Liquid Warping Block结构,基于GSID和GTSF的数据,并经过一系列的运算,生成参数。
(c)AttWB结构层。经过这里,得到了最终的数据结果。
△网络架构图
大量的实验证明了这个方法在保持面部特征性、形状一致性和衣服细节等方面很有效。
AI舞蹈动作恶搞,不仅恶搞了特朗普,还有人还恶搞了华盛顿。
微博互联网知名博主说,现在的AI论文Demo越来越不尊重“老人”了。调侃200多岁的华盛顿好吗?这不好。
作者团队介绍
这个科研团队来自于上海科技大学。
通讯作者是高盛华,高盛华博士2008年本科毕业于中国科学技术大学,2012年博士毕业于新加坡南洋理工大学,2014年8月加入上海科技大学,任助理教授,研究员。
他的研究方向是计算机视觉、机器学习。
△高盛华
第一作者是Wen Liu,2016年在西北工业大学获得了学士学位,目前在上海科技大学攻读博士。主要研究人体三维体重建、图像合成、运动转移等方面。
△Wen Liu
还有一位作者是Lin Ma,硕士毕业于哈尔滨工业大学,在香港中文大学获得了博士学位。曾经是华为诺亚方舟实验室的研究员,现在是深圳腾讯AI实验室的首席研究员。他目前的研究兴趣在计算机视觉领域、多模式深度学习领域等。
△Lin Ma
其他参与的作者还有Zhixin Piao、Zhi Tu、Wenhan Luo 等。
项目地址:
https://www.impersonator.org/work/impersonator-plus-plus.html
数据集下载地址:
https://svip-lab.github.io/dataset/iPER_dataset.html
开源代码地址:
https://github.com/iPERDance/iPERCore
论文地址:
https://arxiv.org/pdf/2011.09055.pdf
下载:CVPR / ECCV 2020开源代码
后台回复:CVPR2020,即可下载CVPR 2020代码开源的论文合集
后台回复:ECCV2020,即可下载ECCV 2020代码开源的论文合集
重磅!CVer-论文写作与投稿交流群成立
扫码添加CVer助手,可申请加入CVer-论文写作与投稿 微信交流群,目前已满2400+人,旨在交流顶会(CVPR/ICCV/ECCV/NIPS/ICML/ICLR/AAAI等)、顶刊(IJCV/TPAMI/TIP等)、SCI、EI、中文核心等写作与投稿事宜。
同时也可申请加入CVer大群和细分方向技术群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如论文写作+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加微信群
▲长按关注CVer公众号
整理不易,请给CVer点赞和在看!