Where_Can_We_Help_A_Visual_Analytics_Approach 论文详解

IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS, VOL. 28, NO.
1, JANUARY 2022

1 论文简介

1.1 摘要

语义分割是自动驾驶中的一个关键组成部分, 由于安全考虑,必须进行彻底的评估。基于深度 神经网络( DNN) 的语义分割模型在自主驾驶中得到了广泛的应用 。然而,由于基于 DNN 的 模型具有黑箱状的性质, 因此评估其具有挑战性 ,而且在自动驾驶应用程序中,评估关键对象 的模型性能,如丢失的货物和行人的性能则更加困难 。在这项工作中 ,我们提出了 VASS,一 种视觉分析方法来诊断和提高语义分割模型的准确性和鲁棒性,特别是对于在各种驾驶场景中 移动的关键对象 。我们的方法的关键组成部分是情境感知空间表示学习 ,提取对象的重要空间 信息,如根据给定的场景背景,位置 、大小和高宽比 。基于这种空间表示 ,我们首先使用它来 创建可视化摘要来分析模型的性能 。然后 ,我们使用它来指导对抗性例子的生成 ,以评估模型 的空间鲁棒性,并获得可操作的见解 。我们通过对自动驾驶中丢失货物检测和行人检测的两个 案例研究,证明了 VASS 的有效性 。对于这两种情况 ,我们用从 VASS 中获得的可操作的见解 对模型性能的改进进行了定量评价 。(可操作见解:基于原始数据分析的流程信息,它使利益 相关者能够直接做出决策 、修改当前流程或进行全面调整 。)

1.2 动机

现有的方法很少关注基于DNN的模型的潜在漏洞,特别是对于自动驾驶的未知场景中的安全 关键物体 。一些开创性的工作 ,更注重于通过添加难以察觉的噪声或干扰学习到的视觉表示来 评估模型对物体外观的鲁棒性 。物体的空间和背景信息的影响,如位置 、大小和与背景的交互 作用,研究较少 。物体的上下文感知空间信息在自动驾驶中起着重要的作用, 因为许多安全关 键物体(如丢失的货物 、行人和汽车) 的位置在驾驶场景中有很大的差异,并经常显著影响模 型的性能 。

1.3 方法论

我们首先从给定的驾驶场景中学习物体的上下文感知空间表示,例如位置 、大小和长宽比 。通 过这种空间表示 ,我们可以: 1 )估计不同驾驶场景中物体空间信息(例如可能的位置、大小 和长宽比) 的分布;2)总结和解释模型关于物体空间信息的性能;3)通过考虑场景上下文, 在驾驶场景中适当地插入新物体来生成新的测试用例 。
然后 ,我们使用对抗学习来有效地生成未见过的测试示例,通过扰动学习空间表示中物体的位 置和大小 。
最后 ,我们开发了一个视觉分析系统,该系统可视化和分析了模型在自然数据和对抗数据上的 性能,并得出了可操作的见解 ,以提高模型的准确性和空间鲁棒性 。

1.4 贡献

一个视觉分析框架用于诊断和改进自动驾驶中的深度关键语义分割模型的移动;
一种上下文感知的空间表示学习方法,提取对象的空间信息(如位置 、大小和纵横比) 的表 示,作为对抗性数据生成 、视觉总结和解释的基础;
一种空间对抗性学习方法,在给定的驾驶场景中生成可移动的物体,并识别模型对物体空间信 息的潜在弱点;
在已部署的系统中,一种经过验证的人工循环性能改进方法,使用两个真实的用例,领域专家 可以通过可视化分析引导的数据生成和增强将他们的见解注入到模型中 。

2 相关研究

2.1 语义分割

现状:语义分割是许多感知系统中的一个重要组成部分,如自动驾驶 。近年来 ,深度学习在语 义分割中发挥着越来越重要的作用,具有显著的性 能提高 。深度语义分割模型大多建立在全卷 积网络[29]的基础上, 通过各种改进来捕获多尺度的上下文信息 。
问题:与大多数其他深度学习技术类似,深度语义分割模型也难以解释和诊断。 此外,他们很 容易受到敌对的例子或边缘情况的影响 。虽 然已经提出了一些[36,46]方法来可视化和分析医 学图像的分割,这 主要是处理静态或可变形的对象。针对自动驾驶中关键可移动物体分割挑
战的技术研究较少
我们的工作 :我们专注于诊断自动驾 驶的语义分割模型,特别是模型对对象的空间上下文的鲁 棒性 。

2.2 神经网络的解释和诊断

( 1 )解释:列举了一些视觉分析解释 CNN 的相关工作 。引出自己的工作贡献 :我们的工作首
次解决了自动驾驶中的语义分割问题 ,并提出了一种评估和提高语义分割模型性能的方法,同
时解释了它们的行为
( 2 )诊断:许多可视化的分析方法已经被开发出来 。
现有工作 1:有助于理解模型潜在的漏洞;不生成具有语义含义的对抗性示例,这限制了 生成可操作见解的能力,从而无法指导模型鲁棒性的改进。
现有工作 2:基于对抗性例子的可操作的见解开发了几种性能改进策略。仅限于交通灯等 静态对象,并且只研究对象外观的鲁棒性 ,而没有考虑周围的环境 。
我们的工作 :更多关注对象的空间信息的影响,如位置 、大小和与上下文的交互 ;针对 语义分割问题,往往涉及识别许多语义类 。
总之,这两种方法(现有工作 2 和我们的工作)是互补的提高自动驾驶感知系统的鲁棒性

3 技术路线

3.1 背景

3.1.1 语义分害割模型

我们使所提出的方法适用于任何不访问模型参数的模型 ,即模型不可知的模型。因此,在这项 工作中 ,我们关注模型的输入和输出,而没有研究模型的详细架构 。

3.1.2 模型准确度的指标

使用三个指标来评估语义分割模型,包括联合的交集( IoU) 、 联合的平均交集(mIoU)和联 合的实例级交集(iIoU) 。

3.2 设计要求

VASS 总目标:通过考虑可移动对象的空间和上下文信息,来诊 断 、理解和提高其语义分割模 型的准确性和鲁棒性 。
设计需求的两个主题:数据汇总和生成 、模型性能评价和改进 。

3.3 方法概述

在这里插入图片描述
图4 .方法概述。给定原始数据( a ) ,我们首先基于物体的边界框(绿色框)和给定的场景掩 码学习一个上下文感知的空间表示( c )。这种表示捕获了物体可能的位置 、大小和纵横比的 可解释空间信息(蓝色框) 。从这个表示中采样一个框开始 ,我们可以插入一个物体并使用空 间对抗学习(d)搜索一个位置(橙色框)来使模型失败 。然后,将对抗数据和原始数据输入 到目标模型中 ,以获得分割结果,这些结果通过( e )一个可视化分析系统进行可视化和分
析 ,以获得可操作的见解 ,以提高模型的准确性和鲁棒性 。诊断和提高针对可移动物体的语义
分割模型的准确性和鲁棒性。
三个主要部分:上下文感知的空间表示学习(第 6.1 节) 、空间对抗学习(第 6.2 节) 以及通 过可视化分析的性能分析和改进(第 7 节)

3.3.1 上下文感知空间表示学习

采用表示学习方法提取可移动物体空间信息的潜在表示 。g., 位置**,大小和高宽比)条件于给 定的驾驶场景。提取的空间表示稍后用于创建可解释的数据摘要( R1.1 ),并指导生成看不见 的测试用例 。
Conditional variational autoencoder (CVAE) 条件变分自编码器 :2 个组成部分:编码器 eθ 和解码器 dφ(即分别具有权值为θ和φ的深度神经网络),给定一个驾驶场景中的一个对象,
它的边界框会通过编码器被编码为一个潜在的向量子,驾驶场景的地面真实分割割(在每个像 素位置上带有语义类标签的掩码)m作为条件 。潜在向量子然后被映射到一个使用解码器 dφ重 建的边界框中, 它也是基于语义分割掩模 mi. 在这里,条件输入 mi 对于使模型能够学习上下文 感知的空间表示至关重要 。
两个损失用于训练 CVAE,包括重建损失 Lr 和潜在的损失 Ll 。
训练后,编码器和解码器用于数据汇总和生成 。

3.3.2 空间对抗性学习

基于学习到的空间表示 ,生成来检验和提高语义分割模型的鲁棒性 。数据生成由两 个步骤组成: 1 )正确插入;新对象以语义一致的方式进入驱动场景;2)干扰潜在表示;调整 对 象在场景中的空间转换(如位置和大小),通过对抗学习欺骗目标模型 。

3.3.3

在数据预处理步骤(即表示和对抗学习)之后 ,收集原始数据 (即训练 、验证和测试) 和对抗数据以及模型的预测 ,以驱动视觉分析系统 。
具体来说,对于每个对象,提取它的空间信息(边界框 、大小和潜在的表示)、外观 (图像和语义分割补丁),和性能指标(即 iIoU 、地面真实类和预测类) 。请注意,对象 的像素 可以被预测为不同的类 ,为此 ,我们将对象的预测类定义为 像素数最大的类。对于对抗性对 象 ,我们还提取了鲁棒性和梯度方 向来分析攻击模式 。

3.4

在这里插入图片描述
图 1. VASS 系统: (a)数据摘要包括数据配置( a1)和对象属性统计( a2); (b)矩阵景观总 结对象的性能在不同层次的细节,包括块视图(b1 )提供概述对象的性能在不同的语义类、
数据源和模型版本,和放大视图(b2 )可视化各个对象的各种性能信息,如上下文感知空间信 息 、性 能分数 、地面真相面具(b3 )和视觉外观(b4 ); ©所选对象的实时测试视图,包括 驾驶场景( c1) 、地面真实掩模( c2) 、预测掩模( c3 )以及模型对所选对象的灵敏度
( c4 )。
视觉分析系统由

3.4.1

包括一个数据配置的总结(图 。和对象关键属性的统计 。1- b1). 数据配置视图提供了数据的基 本配置,包括数据分割 、实例类 和感兴趣的模型 。
此外,柱状图用于显示对象的关键属性的直方图 ,包括对象大小 、iIoU 和鲁棒性 。
摘要视图提供了模型性能( R2.1 )的概述,并使用户能够过滤其他视图中的数据以进行详细分 析 。
3.4.2 矩阵景观视图 (主要)
显示了来自数据属性的 不同方面的众多对象的性能景观 。这个视图旨在帮助用户: 1)通过比 较模型在不同语义类 、 数据源和模型版本之间的性能来识别有趣的数据子集;2)理解模型 在 上下文中对对象的空间信息的性能( R2) 。
在第一级 ,即块视图,对象被划分为组,并提供对象对用户选择的类别属性的性能概述。
在识别出有趣的数据块后,用户可以通过缩放和平移来可视化和探索详细视图中的单个对象。
聚合完成后,通过为每个 bin 选择一个具有代表性的对象,并使用不 同的视觉编码,如 iIoU/ 鲁棒性,来可视化模型性能的空间格局 。
为了尽量减少用户在探索和分析模型诊断数据时的努力 ,我们开发 了额外的工具,包括块排 序、空间标记和梯度符号 。
3.4.3 驾驶场景图
为选定的对象提供详细的可视化和分析 。显示了驾驶场景与对象的边界框,帮助用户理解驱动 器场景的上下文 。在驾驶场景的一侧显示了一个物体的放 大视图,用户可以可视化和比较地面 真相对对象的语义分割 ,以理解模型对对象的行为 。
为了进一步研究和理解模型在物体上的行为,使用敏感性分 析[41]来分析驾驶场景的哪个区域 对物体的分割结果更敏感 。

4 实验结果

4.1 在路上发现丢失的货物用例

4.2 对城市街景的语义理解用例

表现和对抗性学习 、探索和分析模型的性能 、可视化分析辅助性能改进

4.3 专家反馈

灵活的数据探索总体上,领域专家喜欢该工具的“灵活性 ”。

专家们还提出了改善 VASS 的几个方向 。首先,他们提到,用于探 索矩阵景观的选项在一开始 是有点“压倒性的 ”,这可以通过提供 “预定义的配置 ”来缓解 。其次 ,当将工具扩展到其他 数据集和任 务时,他们希望“减少人工工作量 ”。

4.4 讨论和未来工作

生成的数据应该有多现实吗?
证明了适 度的保真度(例如,将可移动的物体放入具有高斯和泊松混合的场 景中)可能就足 够了 。然而,如果我们采用更先进的生成技术,研究我们能为模型测试和改进增加多少额外的 里程数是非常有价值的 。这是我 们未来的一个目标方向 。
要向模型中注入多少知识 ,需要生成的数据应该有多大或多样化?
本工作中观察到,一种有用的注射方减轻一些模型弱点的人类知识是数据生成和增强领域的洞 察力 。关键是找到当前数据覆盖 的弱点,然后用覆盖这些差距的生成数据来扩大模型。
然而,另一个悬而未决 的问题是 ,我们生成这些数据需要多么多样或庞大 ,以充分覆盖这 些 数据差距 。一个很有希望的方向是通过强化学习[9]来探索和学习 丰富的生成策略,然后为领 域专家推荐策略来增强模型 。
空间表征学习的普遍性。
将学习到 的空间表示推广到不同的对象类别是具有挑战性的, 因为对象的位 置和大小的分布 在不同的类别中有显著差异 。在未来 ,我们希望通过引入类别潜在维 度来表示对象类,来扩展 不同类别对象的空间表示学习 。
一个针对自动驾驶的人工循环模型验证的统一框架。
我们观察到 视觉分析方法的两个主题来验证自动驾驶中的感知模型: a)研究物 体的视觉外观 的影响(e 。g., 物体外观的变化[14],贴纸和图形的 物体人工制品[20])对模型性能的影响;b) 研究物体的上下文相关的 空间信息对性能的影响, 比如这项工作 。这两个研究线索是相互互 补的 ,我们计划在未来统一这两个主题 。
其他未来的工作
将基于领域专家的反馈改进系统可用性 ,包括一个仪表板来总结总结的发现(e。g. ,空间和交 互模型的弱 点) ,生成和共享评估报告,并包括其他数据源(e 。g., 雷达和激光 雷达数据)

4.5 结论

这项工作为自动驾驶的视觉分析在诊断和改进关键对象的语义分割方面更进一步 。我们的方
法,VASS ,专注于分析模型的性能对对象 的空间和上下文信息,如位置 、大小,和交互与上

下文 ,我们开发 提取表示对象的位置和大小符合场景语义 和使用空 间对抗学习生成对象在边缘位置来识别模型的潜在弱点 。 此外,还开发了 来可视化和分析模型的准确性 和鲁棒性,并为性能改进获得可操作的见解 。我们通过自动驾驶 中 丢失检测和行人检测两个案例 。对于这两种情 况 ,我们用从 VASS 中获得的可操作的见解 。

  • 22
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值