2020 arXiv
《CogTree: Cognition Tree Loss for Unbiased Scene Graph Generation》
无偏场景图生成的认知树损失
文章目录
针对问题/基本思想
人和Ai的本质区别不在于特征的表现形式,而在于概念的组织形式。人类会本能地从区分明显不同的关系开始认知,然后进一步区分那些差异较小的关系。本文的CogTree 基于biased SGG模型生成并且满足上述的思想:首先区分差异大的关系谓词,然后再区分相似的谓词。
(先粗分类,然后在大类里面细分类)
算法步骤
① Bias-based ‘Concept’
使用基础模型进行预测,对于每个Ground Truth谓词di都会有多个预测结果,此时使用排名第一的预测结果作为di的‘Concept’来代表di
② 构建Concept-centered子树
构建子树:分别以step1中提取得到的concept作为根节点,其对应的GT中非自身的谓词作为子节点。例如 concept ‘On’ 同时为关系谓词 ‘On’, ‘standing on’, 'walking on’的concept, 那么以谓词‘On’为根节点,另外两个谓词为子节点,然后构成子树。
对于那些只存在一个对应GT谓词的concept,文中认为这些concept不够具有代表性,此时就将预测结果中的第二位作为concept(第二个也不行的话就往后顺延)(例如图中的parked on)
③ 组合子树
组合子树:可分为3层来组合
y1层:节点数量=Step2的子树数量,用于粗略地将输入进行分类
y2层:将y1层的每个节点(即step1的每个子树)分为两个分支:
- 一个为代表该子树根节点自身的concept
- 另一个为该子树的其它所有子节点
y3层:进一步细化地分类
Cognition Tree Loss
损失函数分为两部分:
L_CB: 所有类的一个 类平衡softmax交叉熵损失(class-balanced softmax cross-entropy)
L_TCB: 计算CogTree里每一层的类平衡softmax交叉熵损失,然后平均得到:
其中:
Lpath为 从CogTree中根节点到一个谓词叶节点的路径中经过的节点集合
Zi : 为节点i的PCP指数(Predicted CogTree Probability),计算方式如下:
而pk是根据预测结果得到的
疑问:pk具体怎么得到的,是统计一张图中所有预测结果的top K 里各类的数量吗
疑问:计算非叶节点的zi时为什么是子节点PCP的平均而不是直接的子节点之和,加平均的作用是什么
感觉TCB Loss中的分母改成exp(Zi) + ∑zj∈B(i)exp(Zj) 更合理?
ωi 为CogTree中的节点平衡权值:
作者提到,TCB损失首先会使得网络抑制交叉概念(concept-specific)的噪声并学习concept的编码,而后抑制一个concept内部的噪声,进而产生更精细化的分类
就是先分大类,再在大类里面细分
实验结果
实验是基于MOTIFS, VCTree, SG-Transformer来进行的对比实验: