视觉世界中的“众里寻她”--开放环境下的人物特征表示

本文探讨了计算机视觉领域中的人物特征表示,从人脸属性理解到服饰理解,再到场景理解与动作理解。作者刘子纬博士介绍了如何利用深度学习进行人脸属性预测、服饰关键点检测、场景解析以及视频帧合成,强调了结构化深度学习和混合监督信息的重要性,并展示了相关研究成果的实际应用。
摘要由CSDN通过智能技术生成

编者按:辛弃疾在《青玉案.元夕》中曾这样写道,“众里寻她千百度,蓦然回首,那人却在,灯火阑珊处。”

其实在视觉理解领域,这半阙词,描绘的即是,在熙熙攘攘的视觉世界中,通过剥离场景,只关注所关心的那个她的过程 。

如果能够更好地对“她”进行表示,将直接影响到相关视觉任务的性能。因此,对人物的特征表示,成为了计算机视觉领域一个长期的研究方向。

今天,来自加州大学伯克利分校的刘子纬博士,将从开放环境下的人物特征表示出发, 带着你,在熙熙攘攘的视觉世界中,“众里寻她”。

文末,大讲堂特别提供文中提到所有文章以及代码的下载链接。

本文整理自Valse Webinar 2018-01-17期报告。

640?wx_fmt=png&wxfrom=5&wx_lazy=1


640?wx_fmt=png&wxfrom=5&wx_lazy=1


为什么要做以人为中心的视觉计算?在精彩的数据世界中,90%的图像视频数据都是与人相关的。例如,对于上图,我们第一点会关注的就是她是谁、有怎样的喜怒哀乐,也就是对人脸属性的理解。


640?wx_fmt=png


第二点,会关注她的衣着打扮和服饰风格,这是对全身的理解;


640?wx_fmt=png


第三点,我们开始尝试理解她和环境的关系,也就是所谓的场景理解。


640?wx_fmt=png


最后,我们好奇的是她将要去哪里,下一个动作是什么,也就是运动关系理解。接下来将从以上四个方面来逐步讲述我对Human-centric Visual Representation的研究。



Part I: Deep Face Understanding



首先介绍对人脸的理解,这部分内容基于以下工作:

  • “Deep Learning Face Attributes in the Wild”,ICCV 2015.


640?wx_fmt=png


人脸除了具备身份特征之外,还包含肤色、形状、部件等丰富的中层语义层面的视觉属性特征。预测一张图片中人脸的属性(比如拱形眉毛、大眼睛、衰退的发际线、有无胡须等),其实是一个很难的问题,尽管在这里属性都是指二分类问题。


640?wx_fmt=png


传统方法常采用HOG在人脸关键点处提取信息,然后训练一个SVM分类器来得到最终结果。它会有很多错误结果,分析其中原因:第一,真实条件下的人脸存在较大的姿态及尺度变化,因此基于关键点的方法不一定奏效;第二,属性空间是非常大的,线性分类器SVM不足以解决这个问题。


640?wx_fmt=png


因此属性特征空间问题是我们的一个motivation。所谓的single detector是指将所有人脸放在同一个空间下,其空间变化非常大,需要捕捉的信息过多,所以很难学习到一个比较好的检测器。因此,人们就想到了multi-view detector,将人脸分为正面人脸和其他朝向的人脸,在每个子空间里只解决一个子问题,使每一个子问题变得简单,并改善了single detector。这里我们提出用人脸属性分割各个子空间,比如具有“金发”、“微笑”属性的人脸构成第一个子空间,这个子空间比正面人脸子空间更加紧致,所以可以学习到更加紧致的模型来刻画子空间。


640?wx_fmt=png


为了研究这个问题,我们收集了一个较大规模的人脸数据集CelebA,它包含20万张人脸数据,涵盖了40个人脸属性,1万个体。每张人脸图像有bounding box和五个关键点的标注。


640?wx_fmt=png


以上是我们的pipeline,整个网络分为两个部分,第一部分做定位,第二部分做属性预测,都只用了image-level的属性标注信息。首先通过Face Localization Nets定位图片中的人脸,利用人脸属性训练深度神经网络,其卷积层的响应信息其实是可以表示出人脸位置的,结果还是出人意料的精确。之后再通过训练一个Attribute Prediction Net来得到细粒属性。


640?wx_fmt=png


如何做定位呢?首先验证为什么人脸属性信息可以做定位,我们用直方图统计了训练好的卷积神经网络在人脸图像和背景图像上的响应,可以看出人脸和背景有明显的分界。从右图可以得知,使用愈加丰富的人脸属性信息可以得到愈加精确的定位。


640?wx_fmt=gif


随着人脸属性数目逐步增多,神经网络越来越向人脸集中注意力。


640?wx_fmt=png


进一步做了一些定量化的研究。第一,我们发现LNet在CelebA数据集上的人脸定位结果优于传统方法。


640?wx_fmt=png


第二,研究了网络的泛化能力。使用网络陌生的MobileFace用户数据集测试,它依然可以找到人脸。


以上是第一个模块——人脸定位。


640?wx_fmt=png


以下是第二个模块——细粒度分类。我们发现如果用人脸身份信息做预训练,网络已经能够挖掘很多人脸属性语义信息,也就是说神经网络本身做了分解,不断找到训练集图片的heat map。如图(a.1)(a.2)...(a.6)代表神经元,比较靠左的是它高响应的平均图,靠右的是低响应的平均图。


640?wx_fmt=gif


随着训练迭代次数的增多,神经元慢慢发现了种族信息,它的高响应结果是“亚洲人”、低响应结果是“欧洲人”。


640?wx_fmt=png


如果在预训练好的网络上用人脸属性fine-tune,结果它的activation比较稀疏,但是每一个响应的神经元代表了某一种细粒度属性。


640?wx_fmt=gif


如图,通过属性信息fine-tune可以发现“厚嘴唇”这一特征。


640?wx_fmt=png


我们的属性分类在CelebA 和 LFWA上都取得了比较好的结果,而且其运行速度也是比较快的。


640?wx_fmt=png


通过观察网络在未知的30个人脸上的属性预

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值