智源青年科学家代季峰：用“数据+知识”解决图像理解的四大挑战

智源社区

于 2020-04-22 12:12:00 发布

阅读量1.3k

点赞数 2

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/107540171

版权

2020年2月12日下午，在 “智源论坛Live | 青年科学家线上报告会”中，智源青年科学家、商汤科技执行研究总监代季峰做了题为《数据和知识双驱动的图像理解算法》的主题演讲。

代季峰，2009年和2014年分别获得清华大学自动化系的学士和博士学位，2014年至2019年间在MSRA视觉计算组工作。此外，代季峰还担任了IJCV编委会成员，AAAI 2018的Senior PC Member，ECCV 2020及CVPR 2021的Area chair。代季峰的科研领域为视觉语义理解和深度学习，他是R-FCN物体检测算法，和Deformable ConvNets可变形卷积网络的第一作者（Google Scholar引用次数分别为2400和900余次）。

在本次报告中，代季峰认为数据驱动的联结主义（Connectionist AI）和知识驱动的符号主义（Symbolic AI）有望解决当今图像理解算法的四大重要挑战：类别长尾分布、未见场景泛化、实体/关系描述、复杂认知任务。需要指出的是，这个“符号主义+联结主义”理念，在2019年北京智源大会上，中科院院士张钹曾给予了非常高的评价，认为代表了未来第三代人工智能算法的主流趋势。

所以这场报告很值得我们一读：它通过图像识别领域一线实战的生动案例，有助于我们揣摩第三代AI算法落地应用的切入点。

下面，是代季峰演讲的精彩观点。

整理：智源社区孙舶寒

纯数据驱动图像理解中四大挑战

首先，当前主流的图像理解算法是用纯数据驱动的方式训练的深度网络。这类技术的关键点在于用户不必指定被建模的领域的规则，规则是由网络从训练数据中发掘出来的。用户提供被建模领域的训练数据，基于联结主义的深度网络通过调整内部网络权重去拟合数据。这类技术的舒适区是“特定任务+大数据”。但是，在脱离“特定任务+大数据”的舒适区后，当前技术面临很多挑战。几个例子如下：

1. 类别长尾分布问题

在样本非常少的情况下，数据驱动图像理解的算法表现糟糕。而自然图像中不同类别样本符合长尾分布规律。比如：家中放置了智能管家时，管家会识别家中的物品，但是如果家中有买来的新物品，智能管家很有可能因为该物品的样本较少而影响到工作性能。

2. 泛化到未见的场景

当前纯数据驱动的算法一个核心假设是被建模的世界是相对平稳和静态的。这使得训练数据能够有效的刻画被建模的问题。或者是世界变化的速度慢到可以允许足够的新数据能够被采集加入训练，使得算法模型能够适应这种变化。但当现实世界的变化突然发生时，当前的算法就会失效。比如在自动驾驶中，会出现雨后地面反光、玻璃透明等罕见或未见的情况，现在的算法对这种情况很难有效处理。

图1: 泛化到未见的场景的挑战

3. 无法用外观或像素描述的实体/关系问题

图2中左边穿红色衬衫的男性由于手中提着两桶水而无法用手开门，所以他用脚来开门。相信我们不会把这样的样本放入训练中用于模型的学习，因此当个图片出现时，模型也无法理解“开门”这个动作。图2中最右边我们看到两个绿色的杯子，从图片整体的语义中我们理解到上图中水在杯子中而下图中水在杯子外，但是显然，理解这样的场景大部分是从生活中的习得的逻辑思维来进行判断的，从像素级别几乎无法学习到。

图2: 无法用外观或像素描述的实体/关系问题

4. 认知层面的复杂任务问题

我们看图3上图中，右边穿白色半袖的男性正在用手示意餐厅服务员将食物给穿西服的男性。如果我们提问：Why is person4 pointing at person1?这样的问题，并且试图让深度学习模型来解答这个问题，显然是非常困难的，这也是目前学术界比较头疼的一个难点，即如何赋予模型更加复杂的认知能力，而非仅仅是感知能力。

图3: 认知层面的图像问答

数据和图像双驱动法理解图像

既然从纯数据驱动算法层面我们发现有如此多难以攻克的挑战，那么该如何解决这些问题呢？讲者分享了一段认知科学家描述孩子是如何学习的文字：

“The evidence that children are already born knowing certain things is extensive. For example, babies seem to be aware already from birth of some of the physical properties of objects. A newborn infant will follow a moving object behind a screen and anticipate where and when it will reappear. She will recognize a series of different smiling faces as being similar to one another and different from a sad face.”

我们发现，孩子从出生开始已经拥有了或者很快就会拥有一部分能力，而这部分能力目前对于神经网络来说还不知如何去建模、如何去表达，这极大的限制了网络对事物的理解力。那么有什么好方法解决这个问题呢？解答这个问题之前我们先了解两个概念：Connectionist AI （联结主义人工智能）以及 Symbolic AI （符号主义人工智能）。

Connectionist AI，即深度学习的前身，它以网络的分布式来表达信息，这个网络类似于人类大脑中的神经元，信号通过连接或链路从一个节点传递到另一个节点，通过数据驱动来编码和调整网络的权重，因此其建立的模型是隐式的。
Symbolic AI，是指通过符号和它们之间的关系来表达信息，它对世界建立的模型是显式的，模型的编码是依据知识和规则，知识图谱、逻辑推理等。在目前的深度学习发展起来之前，符号主义人工智能占据很重要的地位。

我们是否可以结合两种不同的人工智能理念，来解决更广阔的问题和挑战呢？正如我们上文中提到的，孩子从出生开始会携带或者很快习得一些基本但是很重要的知识，而这些知识我们可以理解为Symbolic AI，比如外部知识（External Knowledge）：人类自步入文明时代后，所积累的数百万种知识公理，如直觉物理、领域知识、常识知识等。

如果我们有这些基础知识作为”先天指导“，以Connectionist AI 作为“后天手段”，可以做更多领域的尝试。下面我们举两个有趣的例子来开阔大家的思维。

1. Example I

第一个例子如图4:我们希望从左图中使用Connectionist AI来识别人、水瓶两个事物和喝水这个动作，使用Symbolic AI推理出瓶中有水，那么二者结合起来就能够回答图4的问题：在图片中水的位置在哪里。

图4: 如何得到图片中水的位置

2. Example II

第二个例子如图5：我们看到图5中有一个女性手中有一把手枪，她正在用手枪指着对面的男性。问题是：为什么女性要用枪指着男性呢？如果没有外部Symbolic AI指导，我们猜测可能女性想要杀掉这位男士，但是如果我们仔细看图，并且调用我们的Symbolic AI，我们发现这个场景发生在金库，因此比较容易可以猜到图中的女士想要抢劫金库。

图5: 如何理解图中的女士用枪指着男士的原因

基于数据图像双驱动法的两大技术挑战

从上面两个实例中我们可以看出，使用Connectionist AI 及Symbolic AI结合，可以做很多非常有意义的推理，当然这样的结合也很有挑战性，虽然对于人类大脑来看这两个例子是非常简单的，但是使用计算机去做出精确的推理，其技术难度是不言而喻的。

1. 给定输入，如何从大量的信息中推理出所需要的信息？

第一个挑战是：给定输入，如何从大量的外部知识库中推理出所需要的信息呢？如下图6所示：我们从枪、金库作为初始节点，从大量的数据中搜索到抢劫这个信息呢？从初始节点出发后，我们枚举了所有的可能，构建出一幅巨大的图，如何将图中的无用的边进行裁剪，迅速找到真正有意义的边，对于我们研发工作者，是一个巨大的挑战。

图6: 枚举所有可能的后得出的搜索图

2. 如何结合深度网络及先验知识来进行预测？

第二个挑战是：如何结合深度网络及先验知识来进行预测？二者结合的难点在于Connectionist AI 及Symbolic AI其本质的思想是完全不同的。Connectionist AI 更偏重隐式的表达，它更多地认为像素的某种分布组合即是某种物体的形态，我们根据这些分布来识别物体。Symbolic AI更偏重显式的表达，我们根据严谨的逻辑推演来导出结论。到目前为止，如何将完全不同的思路结合起来应用，在学术界其实暂时并没有很多有用的成果可以借鉴。

目前代季峰团队正在尝试将视觉-语言二者的表达结合起来，该成果发表在2020年的ICLR。VL-BERT 的主干网络使用 Transformer Attention 模块，并将视觉与语言嵌入特征作为输入，其中输入的每个元素是来自句子中的单词、或图像中的感兴趣区域（Region of Interests，简称 RoIs）。在模型训练的过程中，每个元素均可以根据其内容、位置、类别等信息自适应地聚合来自所有其他元素的信息。在堆叠多层 Transformer Attention 模块后，其特征表示即具有更为丰富的聚合与对齐视觉和语言线索的能力。团队希望借此在视觉常识推理、视觉问答、引用表达式理解方面做出一些尝试。

图7：VL-BERT

结语

根据上面内容，我们可以看到融合了Connectionist AI和Symbolic AI的第三代AI算法，已经通过图像识别等领域，迈开了现实应用的脚步。另一方面，正如讲者在演讲结束时所指出，Connectionist AI、Symbolic AI尽管各自领域已经发展了很多不错的成果，但它们真正的有效融合，还需要我们通过不断阅读经典、进行算法实践等方式去做更深入的探索。

智源社区

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
智源青年科学家代季峰：用“数据+知识”解决图像理解的四大挑战

2020年2月12日下午，在“智源论坛Live | 青年科学家线上报告会”中，智源青年科学家、商汤科技执行研究总监代季峰做了题为《数据和知识双驱动的图像理解算法》的主题演讲。代季峰，2...
复制链接

扫一扫