视觉世界中的“众里寻她”--开放环境下的人物特征表示-CSDN博客

本文链接：https://blog.csdn.net/XWUkefr2tnh4/article/details/80154640

本文探讨了计算机视觉领域中的人物特征表示，从人脸属性理解到服饰理解，再到场景理解与动作理解。作者刘子纬博士介绍了如何利用深度学习进行人脸属性预测、服饰关键点检测、场景解析以及视频帧合成，强调了结构化深度学习和混合监督信息的重要性，并展示了相关研究成果的实际应用。

摘要由CSDN通过智能技术生成

编者按：辛弃疾在《青玉案.元夕》中曾这样写道，“众里寻她千百度，蓦然回首，那人却在，灯火阑珊处。”

其实在视觉理解领域，这半阙词，描绘的即是，在熙熙攘攘的视觉世界中，通过剥离场景，只关注所关心的那个她的过程。

如果能够更好地对“她”进行表示，将直接影响到相关视觉任务的性能。因此，对人物的特征表示，成为了计算机视觉领域一个长期的研究方向。

今天，来自加州大学伯克利分校的刘子纬博士，将从开放环境下的人物特征表示出发，带着你，在熙熙攘攘的视觉世界中，“众里寻她”。

文末，大讲堂特别提供文中提到所有文章以及代码的下载链接。

本文整理自Valse Webinar 2018-01-17期报告。

为什么要做以人为中心的视觉计算？在精彩的数据世界中，90%的图像视频数据都是与人相关的。例如，对于上图，我们第一点会关注的就是她是谁、有怎样的喜怒哀乐，也就是对人脸属性的理解。

第二点，会关注她的衣着打扮和服饰风格，这是对全身的理解；

第三点，我们开始尝试理解她和环境的关系，也就是所谓的场景理解。

最后，我们好奇的是她将要去哪里，下一个动作是什么，也就是运动关系理解。接下来将从以上四个方面来逐步讲述我对Human-centric Visual Representation的研究。

Part I: Deep Face Understanding

首先介绍对人脸的理解，这部分内容基于以下工作：

“Deep Learning Face Attributes in the Wild”，ICCV 2015.

人脸除了具备身份特征之外，还包含肤色、形状、部件等丰富的中层语义层面的视觉属性特征。预测一张图片中人脸的属性（比如拱形眉毛、大眼睛、衰退的发际线、有无胡须等），其实是一个很难的问题，尽管在这里属性都是指二分类问题。

传统方法常采用HOG在人脸关键点处提取信息，然后训练一个SVM分类器来得到最终结果。它会有很多错误结果，分析其中原因：第一，真实条件下的人脸存在较大的姿态及尺度变化，因此基于关键点的方法不一定奏效；第二，属性空间是非常大的，线性分类器SVM不足以解决这个问题。

因此属性特征空间问题是我们的一个motivation。所谓的single detector是指将所有人脸放在同一个空间下，其空间变化非常大，需要捕捉的信息过多，所以很难学习到一个比较好的检测器。因此，人们就想到了multi-view detector，将人脸分为正面人脸和其他朝向的人脸，在每个子空间里只解决一个子问题，使每一个子问题变得简单，并改善了single detector。这里我们提出用人脸属性分割各个子空间，比如具有“金发”、“微笑”属性的人脸构成第一个子空间，这个子空间比正面人脸子空间更加紧致，所以可以学习到更加紧致的模型来刻画子空间。

为了研究这个问题，我们收集了一个较大规模的人脸数据集CelebA，它包含20万张人脸数据，涵盖了40个人脸属性，1万个体。每张人脸图像有bounding box和五个关键点的标注。

以上是我们的pipeline，整个网络分为两个部分，第一部分做定位，第二部分做属性预测，都只用了image-level的属性标注信息。首先通过Face Localization Nets定位图片中的人脸，利用人脸属性训练深度神经网络，其卷积层的响应信息其实是可以表示出人脸位置的，结果还是出人意料的精确。之后再通过训练一个Attribute Prediction Net来得到细粒属性。