parsing文献初步整理

ECCV2018

PSANet: Point-wise Spatial Attention Network for Scene Parsing:
提出了PSANet来放松局部邻域约束。feature map上的每个位置都通过一个自适应学习的attention mask与其他位置相连。从信息流的角度看待自注意力机制

Instance-level Human Parsing via Part Grouping
Network:
利用一个统一网络对两个连续的分割部分进行分组,包括部分级像素分组和实例级部分分组。PGN 进一步整合了细化分支,利用互补的语境信息使两个目标相互受益。

Learning Human-Object Interactions by
Graph Parsing Neural Networks:
用来检测human-object interaction。Paper说提出GPNN的目的是为了在HOI任务中显式地对空间、时间(视频)以及human-object关系进行利用。complete HOI指的是所有的node之间都有link,node包括human和object。

Unified Perceptual Parsing for Scene
Understanding:
提出一种新解析任务统一感知解析(UPP),它需要机器一次性解析多层次视觉概念;提出一种带有层级结构的全新网络UPerNet,可学习不同图像数据集中的差异化数据;
该网络可实现联合推理,并发掘图像之中丰富的视觉知识。

Mutual Learning to Adapt for Joint Human Parsing and Pose Estimation:
提出一种模型 MuLA(Mutual Learning to Adapt)来调整模型,来更好的完成行人解析和姿态估计的问题,让两个任务是可以相互协助,互相补充。

Macro-Micro Adversarial Network for Human Parsing:
对抗网络应用于人体解析,像素级分类由于低层次局部不一致性和高层次语义不一致性而使损失产生倒退。对抗性网络的引入使用单个鉴别器解决了这两个问题。然而,两种类型的解析不一致性是由不同的机制产生的,因此单个鉴别器很难解决它们。为解决这两种不一致问题,文中提出了宏 - 微对抗网络(MMAN)。

ICCV2019

Holistic++ Scene Understanding:Single-view 3D Holistic Scene Parsing and Human Pose Estimation with Human-Object Interaction and Physical Commonsense:
提出了一种新的三维整体场景理解问题,该问题从单视图图像中共同解决了两项任务:整体场景解析和重建——对物体包围盒、相机姿态和房间布局的三维估计,以及三维人体姿态估计。

SPGNet: semantic prediction guidance for scene parsing:
采用了增加分类监督来生成CAM,将CAM作为注意力。

Adaptive Context Network for Scene Parsing:
全局上下文信息是image-level feature,而局部上下文信息是通过中间层所得到的。
对于图像中的一个pixel而言,全局的上下文需求通过全局特征和局部的特征的相似度,用其取反值来计算局部的上下文需求,通过这两种需求生成本文所提出的自适应的上下文特征(adaptive contextual features)。通过在网络的不同层设置这种自适应上下文特征块,来提取由粗粒度到细粒度的分割结果。

What Synthesis Is Missing: Depth Adaptation
Integrated With Weak Supervision for Indoor Scene Parsing:
实现为一个师生学习框架,通过生成一个伪ground truth来解决迁移学习问题。

Learning Compositional Neural Information Fusion for Human Parsing:
将神经网络与人体的成分层次结构相结合,以实现高效和完整的人体解析。我们将该方法作为一个神经信息融合框架。模型从层次结构上的三个推理过程中组装信息:直接推理(使用图像信息直接预测人体的每个部分)、自下而上推理(从组成部分组装知识)和自上而下推理(利用来自父节点的上下文)。

Hierarchy Parsing for Image Captioning:
在encoder的部分加入了层次解析(HIerarchy Parsing,HIP)结构。HIP把图片解析成树状结构:根节点是整个图片,中间节点则是通过把图片分解成一系列Region-level的区域来得到的,而叶子节点则是在Region-level的基础上应用图像分割。

Multi-class Part Parsing with Joint Boundary-Semantic Awareness:
提出了一个具有边界和语义感知的联合解析框架,为了处理部分层次的模糊问题,提出了一种边界感知模块,使多尺度的中层特征参与到零件边界中,从而实现零件的精确定位,然后将其与高层特征融合,从而实现零件的有效识别。

Relation Parsing Neural Network for Human-Object Interaction Detection:
Human-Bodypart Graph 捕获人体部位的关系 Object-Bodypart Graph 捕获肢体与场景物体之间的关系,相互联系。

CVPR2019

Graphonomy: Universal Human Parsing via Graph Transfer Learning:
学习一个通用的人体解析模型,该模型通过统一来自不同领域或不同粒度级别的标签注释来处理各种人体解析任务。设计通用人体解析模型的一个关键是在不同的人体解析任务之间进行适当的迁移学习和知识集成,因为不同数据集之间的标签存在差异。

Face Parsing with RoI Tanh-Warping:
旋转过一定方向,人的识别就出现巨大偏差。关于旋转问题的解决方法。

KE-GAN: Knowledge Embedded Generative Adversarial Networks for Semi-Supervised Scene Parsing:
以半监督的方式通过从大规模文本语料库中设计知识图来捕获不同类别的语义一致性。引入金字塔结构,以获取多尺度的上下文信息。

Scene Parsing via Integrated Classification Model and Variance-Based Regularization:
提出了一个综合的分类模型和基于方差的正则化,以实现更精确的分类。一方面,集成分类模型包含多个分类器,不仅是通用分类器,而且是用于区分混淆类别的细化分类器。另一方面,基于方差的正则化将所有类别的得分尽可能大地区分,以减少误分类。

Unsupervised Person Image Generation with Semantic Parsing Transformation:
人体的非刚性,卷积网络难以对人体的空间错位部件进行变换。提出了一种无监督的行人图像生成模型,该模型包含两个模块,包括语义解析迁移以及外观生成模块。

Parsing R-CNN for Instance-Level Human Analysis:
提出一个端到端的pipeline来解决实例级人体解析。为了增强特征语义信息,保持特征分辨率,使用可分离采样。增大了roi分辨率。提出几何和上下文编码方法,来增大感受野,捕捉不同部件间的关系。

CVPR2020

Fashion Editing with Adversarial Parsing Learning:
FE-GAN包括两个模块:1)一个自由形式的解析网络,通过操纵草图和颜色来学会控制人类解析生成;2)具有解析意识的inpaint网络,在人类解析图的语义指导下呈现详细纹理。在复绘网络的解码器中进一步应用了一种新的注意归一层,以提高合成图像的质量。

Deep Grouping Model for Unified Perceptual Parsing:
包括网格状的CNN feature map和不规则状的感知分组层次之间固有的不兼容性,分组过程在很大程度上被忽略了。深度分组模型(DGM)紧密结合了两种表示方式,并定义了一个自底向上和一个自顶向下的特性交换过程。与现代CNN方法相比,DGM具有更好的可解释性。

Self-Learning with Rectification Strategy for Human Parsing:
解决人工解析任务中样本不足的问题。从自学习策略开始,它为未标记的数据生成伪标签来重新训练模型。然而,直接使用有噪声的伪标将导致误差放大和积累。针对人体的拓扑结构,提出了一种可训练的图推理方法,通过建立图节点之间的内部结构连接来纠正伪标签中的两种典型错误,即伪标签错误。全局结构误差和局部一致性误差。对于全局误差,首先将分类特征转化为具有粗粒度结构信息的高级图模型,然后将高级图解耦,重构类别特征。

Towards Learning Structure via Consensus for Face Segmentation and Parsing:
研究了一些时间解析方法,能够在不知道子动作标签的情况下从训练数据中挖掘子动作。

Hierarchical Human Parsing with Typed Part-Relation Reasoning:
对人体结构建模。三种不同的关系网络首次完整而准确地描述了三种不同的关系网络:分解、组成和依赖。以前的解析器只关注关系的一部分,并采用类型不可知的关系建模策略。通过显式地在关系网络中设置参数来满足不同关系的具体特征,可以获得表达性更强的关系信息。

Weakly Supervised Visual Semantic Parsing:
场景图生成(Scene Graph Generation, SGG)旨在从图像中提取实体、谓词及其内在结构,从而深入理解视觉内容。
现有的SGG方法需要数百万个手工注释的边界框来进行训练,并且在计算上效率低下。在本文中,提出了一个广义的SGG公式,即视觉语义解析,它将实体识别和谓词识别分离开来。提出了可视化语义解析网络VSPNET,该网络基于动态的、基于注意力的二部图信息传递框架,通过迭代过程共同推断图的节点和边。此外,我们提出了第一个基于图的弱监督学习框架,基于一种新的图对齐算法,它可以在不使用边界框标注的情况下进行训练。

Correlating Edge, Pose with Parsing:
研究了人类语义边界和关键点位置如何共同提高人类解析能力。提出了一种关联解析机(CorrPM),它使用异质非局部块从边缘、姿态和解析中发现特征图之间的空间关联。

Part-aware Context Network for Human Parsing:
为不同大小和形状的人体部件生成自适应的上下文特征。提出了一个部分感知上下文网络(PCNet),一个新的和有效的算法来处理这一挑战。PCNet主要由部件类模块、关系聚合模块和关系分散模块三个模块组成。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值