【Causal-SGG】Unbiased Scene Graph Generation from Biased Training

最新推荐文章于 2023-07-12 16:43:43 发布

zzl_1998

最新推荐文章于 2023-07-12 16:43:43 发布

阅读量583

点赞数

分类专栏：因果 Bias

本文链接：https://blog.csdn.net/qq_40731332/article/details/116027437

版权

Bias 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

因果

4 篇文章 0 订阅

订阅专栏

摘要：当前存在的问题->现有方法存在的缺点->新方法->新方法的优点
引言：当前做的任务和它的用处 -> 当前存在的问题（图解释）-> 现有方法存在的缺点 -> 从已有的知识中引申新方法 -> 新方法的简单说明（图解释）-> 新方法的详细说明（图解释）

在SGG领域，对relationship的分类存在坍塌的问题，该问题是由于类别的长尾分布造成的。模型在长尾分布的bias training下，虽然可以去除很多离谱的选择，但同样也会倾向于长尾的头部类，导致结果包含的信息量极少。

本文认为，该问题是由于没有用content预测，而是依靠context + content预测造成的。因此借助干预和反事实，通过干预X（X结点的输出为训练集均值）和对Z做反事实（假设输入还是原本的X），求得在仅有标签和目标并集区域情况下的结果（文中认为这样求得context预测的结果）。TDE = (content + context预测的结果) - (context预测的结果)，作为最后的输出。

实验结果中，TD和TDE的结果非常接近，而TD是仅干预X。

Abstract

Introduction

Biased Training Models in Causal Graph

Unbiased Prediction by Causal Effects

Abstract

Scene Graph Generation (SGG) 存在严重的训练偏置（例如：human walk on/ sit on/ lay on beach 会坍缩成human on beach）。对于这种情况下训练的SGG，下游任务VQA很难推理出很好的场景结构。
SGG中传统的去偏置方法很难区分有益的偏执（person read book而不是eat）和有害的长尾偏置（near相较于behind/ in front of）。
本文基于causal inference而不是似然建立SGG框架。
为SGG建立了causal graph，并在该图上执行传统的偏置训练。在训练好的图上执行counterfactural causality，推理bad bias的effect（这部分应当被移除）
总的来说，本文使用Total Direct Effect作为unbiased SGG最终的预测分数。
本文方法广泛适用于各种SSG模型。

Introduction

SGG旨在找寻图片中目标间的关系，用于辅助实现更高级的视觉任务graph resaoning：visual captioning和VQA。理想状况下，有SGG的graph reasoning可以去除很多摸棱两可的视觉关系，输出一张稀疏目标间的关系图，最终送入图神经网络。
当前sota的SGG方法输出的关系图，信息量是很少的，这是由biased training data造成的，更具体来说，是关系标注数据的长尾分布造成的（如下图b）。

(1) long-tail theory; (2) bounded rationality; (3) language or reporting bias 是本就存在于我们语言系统中的偏置。事实上，这些偏置可以帮助模型学习更好的上下文先验，滤除不必要的（一般来说不太可能的）候选（例如：apple park on table）。一个令人尴尬的事实是：仅使用Visual Genome Benchmark中检测目标类的统计先验，就可以在Scene Graph Detection中达到30.1% on Recall@100的成绩，仅比sota方法低1.1-1.5%个点。而conventional debiasing 方法，例如：训练过程中的re-sampling和re-weighting在unseen relationships上的泛化能力很差（例如：zero-shot SGG）。
无论是机器还是人，都是通过content和context来做出决定。以SGG为例，content是subject和object的视觉特征，context是subject-object union regions和pairwise object classes。人类做出判断的潜在机制是causality-based：追求content带来的main causal effect，而不是context的side-effect。因此，我们想要做的是区分main effect和side effect。
本文希望赋予机器counterfactual causality的能力，从而在存在side effect的情况下，追求main effect：

If I had not seen the content, would I still make the same prediction?

counterfactual 依赖于事实上的"I see" 和想象"I had not"，两者的比较会自然地remove context bias的影响，因为context是改变中唯一不变的。
如下图所示：模型会预测on（bias帮助我们筛选掉了很多不太可能的选项）。紧接着，我们仅去掉dog和surfboard的visual features，保留scene和目标类别，这样，我们可以聚焦于类别间的关系。

本文基于Total Direct Effect (TDE) [59, 39, 60] 提出一个unbiased SGG方法。下图展示了本文的causal graphs。结点代表数据特征，箭头表示数据流向。例如：X->Y，Z->Y和I->Y：relationship Y 是（1）content：一对object visual features X；（2）context：他们的目标类别Z；（3）scene：图片I，三者共同造成的combined effect。虚线表示被擦除的X_hat，使得它不再受I的影响，同时它也不再影响Z。这些图让我们有算法公式用于计算TDE。

Unbiased Training：现有的方法的可以被粗略的分为：（1）data augmentation或re-sampling [9, 24, 26, 11, 3]；（2）unbiased learning through elaborately designed training curriculums or learning losses [72, 29]；（3）解耦偏置和无偏表示[4, 35]。本文提出的TDE analysis可以看作是第三种，主要区别在于，TDE不需要训练额外层取建模偏见，它直接通过在causal graphs 上的counterfacutal surgery分离bias。
Mediation Analysis（effect analysis）：在medical，political和psychological research中被广泛用于寻找治疗或策略的效果。同时，有很多视觉工作也开始采用这些方法了。更多背景知识可以参考[40, 41, 59]。

Biased Training Models in Causal Graph

Causal Graph来自structural causal model [41, 38, 40]，是有向无环图，表示变量间如何通过causal links相互作用的。提供一个简单的示意图：数据本后的因果关系和变量如何获得他们的值（It provides a sketch of the causal relations behind the data and how variables obtain their values, e.g., (I, X, Z)->Y）。在说明对causal graph的改动之前，我们首先展示在causal graph视角下有偏置的SGG训练。

本文提出的方法适用于大多数SGG方法。We case-study three representaive model formulations, VTransE, MOTIFS and vc-Tree, using the language of nodes and links。

Node I (Input Image & Backbone). A Faster R-CNN is pre-trained and frozen in this node，它输出bbox B = {bi | i = 1, ..., n}和image I的特征图M.
Link I -> X (目标特征提取). 它首先提取RoIAlign features R = {ri}和tentative object labels L = {li} 通过Faster R-CNN的object classifier，然后对于MOTIFS或VCTree，通过下式编码每个目标的visual contexts，其中，MOTIFS通过bidirectional LSTMS，VCTree用bidirectional TreeLSTMS，VTransE用全连接层。

Node X（Object Feature），表示从{(xi, xj) | i≠j; i,j = 1...n}成对的目标特征X，。
Link X->Z (Object Classification)，每个目标fine-tuned label，从对应的xi中解码得到。例如：每个LSTM/TreeLSTM的输入是[xi; zi-1] ：

Node Z（Object Class），包含了一对目标标签的one-hot向量ze = (zi, zj)
Link X->Y（Object Feature Input for SGG）为了关系分类，pairwise feature X 被模型merged into a joint representation，其中MOTIFS和VCTree在特征拼接前使用了另一个Bi-LSTMs和Bi-TreeLSTMs.

Link Z->Y（Object Class Input for SGG）计算language prior，通过一个联合embedding layer ，其中运算是pair of N-way object labels。
Link I->Y（Visual Context Input for SGG）提取contextual union region feature：v'e = Convs(RoIAlign(M, bi∪bj))，其中∪表示区域的并集。
Node Y (Predicate Classificaiton). 使用fusion function，输入是X、I、Z的输出。fusion function，本文使用了两种：

Training Loss. 使用object labels和predicate labels的cross-entropy losses。

Unbiased Prediction by Causal Effects

当前深度学习是“黑盒”，我们无法知晓一对物体具体是如何影响结果——他们之间的关系。而Causal Inference可以帮助，在完备的causal graph上，通过intervention和counterfactuals对影响进行分析。

Notations

Intervetion：可以被记作do(.)。它要求给变量一个确定的值（e.g. do(X=x_bar)），wipes out in-coming links of variables，并且不再受它的causal parents的影响。
Counterfactural：counter to the facts，在干预do(X = x_bar)的情况下，variable Z仍然取原来的z，就像输入还是x一样。

Causal Effect：本文使用一对object feature X作为控制变量（干预，量化分析它的effects），如果一对object feature不存在，那么也不应该有任何有效的关系。observed X表示为x，intervened unseen value表示为x_bar（设为training set的mean feature或zero vector）。

计算图5的a,c可以得到两个结果：

Total Direct Effect

unbiased prediction通过observed outcome Yx(u)和counterfactual alternate Yx_bar, z(u)间的差异来表示。后者是我们想从预测中移除的context-specific bias。

Intuitively, the unbiased prediction that we seek is the visual stimuli from blank to the observed real objects with specific attributes, states, and behaviors, but not merely from the surroundings and language priors.

In causal inference [59, 60], the above prediction process can be calculated as Total Direct Effect (TDE):

存在另外一种effect：Total Effect (TE)，它很容易和TDE混淆在一起。不用conunterfactual bias ，TE让X的所有子节点在do(X=x_bar)干预的情况下改变。TE因此写作：

Overall SGG

Experiments

Ablation Studies：1）Focal：focal loss；2）Reweight：weighted cross-entropy; 3）Resample

比较有意思的是TE和TDE效果非常接近。而TE只是对X做干预，将X替换成一个常数。

zzl_1998

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
【Causal-SGG】Unbiased Scene Graph Generation from Biased Training

AbstractScene Graph Generation (SGG) 存在严重的训练偏置（例如：human walk on/ sit on/ lay on beach 会坍缩成human on beach）。对于这种SGG，下游任务VQA很难推理出很好的场景结构。 SGG中传统的去偏置方法很难区分好偏执（person read book而不是eat）和坏的长尾偏置（near相较于behind/ in front of）。本文基于causal inference而不是似然建立SGG框架。 ..
复制链接

扫一扫