场景图生成论文阅读笔记之 PCPL

最新推荐文章于 2024-06-07 09:57:12 发布

流觞时光

最新推荐文章于 2024-06-07 09:57:12 发布

阅读量653

点赞数

分类专栏：论文阅读笔记文章标签：深度学习计算机视觉场景图生成视觉理解

本文链接：https://blog.csdn.net/qq_38574198/article/details/120438460

版权

论文阅读笔记专栏收录该内容

18 篇文章 8 订阅

订阅专栏

PCPL（predicate-correlation perception learning scheme）阅读笔记
(谓词联系感知学习策略)

针对问题

VG数据集长久以来的难题：谓词类的长尾效应过于严重导致结果很容易预测为头部类，并且谓词类之间并不是相互独立的，在很多场景下会是包含等等的关系，因此可以利用谓词与谓词之间的关联信息。

作者提到：当前比较普遍的重调节策略(re-banlance strategy, 例如重采样，调节权重等) 会导致模型在尾部数据过拟合。作者认为这是因为重调整策略对于谓词的出现频率比较敏感，而对于谓词之间的联系不敏感，但是对于场景图生成来说这些谓词之间的关系反而更重要。
因此本文提出了PCPL，目的是利用不同谓词类别之间的联系来自适应寻找loss权重

通过实验对比发现在使用re-weight策略时，谓词与谓词之间弱关联时，re-banlance会提升尾部类的指标并且对头部类影响较小；但是如果谓词与谓词之间存在强关联时，会导致在尾部数据过拟合，即尾部类的指标提升但是会导致与其有关联的头部类指标降低
在这里插入图片描述

论文流程

要衡量类与类之间的距离，本文中使用类中心的间距作为衡量类相关程度的指标，因为一般来说关联程度大的类之间的距离会更近一点。

不同场景下谓词类与谓词类之间的关联程度不一定相同，即谓词类之间的关联程度不是一成不变的，所以这里作者在计算类中心时使用的是可学习方式，并不是直接对整个数据集进行聚类统计（这种方式下类与类之间的关联程度是固定的）

论文流程示意图如下所示：
① 与其他论文一样首先使用faster RCNN检测出proposals
② 对每个proposal的位置进行编码，与视觉特征一起输入到上下文信息编码模块中
③ 在上下文信息编码模块中使用自注意力机制获取上下文特征
④ 对每个proposal预测类别标签，并对标签进行编码
⑤ 上下文特征与标签编码进行融合得到关系谓词的视觉表示特征向量（Relationship Representations）
⑥ 为每一类关系谓词的类中心初始化一个表示向量（文中未说明初始化方式）
⑦ 将relationship representations输入到节点更新网络(对应前面提到的可学习方式计算类中心)更新节点特征
⑧ 计算各类中心的间距e,然后使用所示的公式计算对应的权重

在这里插入图片描述

文中提到在PCPL方法中尽管强相关的谓词类被赋予的权重比较小，但是他们能够从其它相关类受益；与此同时其它类(弱相关的谓词等)的损失比重增大，这也有利于提升性能（感觉解释的有些牵强，为什么权重小了还会有提升，或者说关联类是怎么影响的）

实验结果

在这里插入图片描述

流觞时光

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
场景图生成论文阅读笔记之 PCPL

PCPL（predicate-correlation perception learning scheme）阅读笔记(谓词联系感知学习策略)目录针对问题论文流程实验结果针对问题VG数据集长久以来的难题：谓词类的长尾效应过于严重导致结果很容易预测为头部类，并且谓词类之间并不是相互独立的，在很多场景下会是包含等等的关系，因此可以利用谓词与谓词之间的关联信息。作者提到：当前比较普遍的重调节策略(re-banlance strategy, 例如重采样，调节权重等) 会导致模型在尾部数据过拟合。作者认为这是
复制链接

扫一扫