全景分割调研(1) 问题引入与性能指标

0. 前言

  • 全景分割调研系列文章分为4篇
    • 问题引入与性能指标(本文)
    • 常用数据集
    • 当前研究现状(现有模型概况与分类、开源情况)
  • 本文主要内容
    • 全景分割的引入(也就是这篇论文的笔记)
    • 全景分割常用性能指标介绍

1. 问题引入

  • 相关资料:
  • 论文基本信息
    • 领域:全景分割(挖坑作)
    • 作者单位:FAIR
    • 发表时间:2018.1-CVPR2019
  • 一句话总结:全景分割开山之作,介绍了问题的定义、性能指标以及baseline方法(该方法没有什么价值)

1.1 要解决什么问题

  • 引入全景分割
    • 下图对比了语义分割、实例分割和全景分割。
    • 全景分割可以看成是语义分割和实例分割的结合:things使用实例分割,stuff使用语义分割。
    • 换句话说,things区分个体,stuff不区分个体。

image-20210705232831210

  • 作者认为:
    • 相比于语义分隔与实例分割,全景分割是一种更符合人类认知的感知问题。
    • 相关问题研究不多,一个重要原因在于,没有合适的性能指标。
  • things 与 stuff
    • things:countable objects,即可计数物体,如人、车等,常见算法包括目标检测、实例分割。
    • stuff:amorphous regions of similar texture or material,即背景,如草地、天空、路面等,常见算法包括语义分割。
  • 问题定义(task format)很简单:每个像素都对应一个语义标签(stuff)或实例编号(things)

1.2 用了什么方法

  • 本文提出了适用于全景分割的性能指标PQ,下一章中单独介绍。

1.3 还存在什么问题&可借鉴之处

  • 开山之作,模型本身没有价值,但问题定义与性能指标都沿用至今。
  • 论文中还有一些别的内容
    • 比如人类一致性,不是特别明白是什么意思,有什么作用。

2 性能指标

2.1 对于性能指标的要求

  • Completeness:需要同时对 stuff 和 things 进行评估
  • Interpretability:可解释,即人可以理解这个指标的含义
  • Simplicity:简洁,易于定义和实现

2.2 PQ 的定义与实现

  • 定义的性能指标名为 Panoptic Quality,简称 PQ。

  • PQ 包含两部分内容

    • segment mathing,分割匹配,换句话说,就 prediction 与 GT 进行匹配
    • PQ computation given the matches,通过匹配结果计算 PQ 值
  • segment matching

    • 当预测结果与 GT 的 IoU 大于 0.5 时,才算成功匹配
    • 每个 GT segment 只能有一个匹配
    • 实验证明,降低 IoU 阈值没有必要,因为很少有<0.5的匹配结果
  • PQ 计算

    • 对每一类分别计算,然后最后求平均。这样做有利于是的类别间均衡(即不同类别的权重差不多)

    • 对于所有预测和GT,有三种可能的结果

      • TP,true positive,matched pairs of segments
      • FP,false positive,unmatched predicted segments
      • FN,false negative,unmatched ground truth segments
    • PQ 的公式如下

      • 下面两个公式是等价的。
      • 第二个公式有更好的可解释性(保证了PQ的Interpretability)。
      • SQ 代表分割质量,是TP中GT/Predict之间IoU之和,与所有 TP 的面积的比值,只计算 matched pairs
      • RQ 代表识别质量,定义与F1 Score相同

image-20210706001347532

image-20210706001404489

  • 在计算PQ的过程中,对于 things,每一个实例可以看成是 stuff 中的单独一类。
    • 这保证了 PQ 的Completeness

2.3 COCO 中的细节

  • COCO 中的性能指标如下
    • 分别计算每一类的PQ/SQ/RQ
    • 计算每一类Things的PQ/SQ/RQ
    • 计算每一类stuff的PQ/SQ/RQ

image-20210706001956988

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
本课程适合具有一定深度学习基础,希望发展为深度学习之计算机视觉方向的算法工程师和研发人员的同学们。基于深度学习的计算机视觉是目前人工智能最活跃的领域,应用非常广泛,如人脸识别和无人驾驶中的机器视觉等。该领域的发展日新月异,网络模型和算法层出不穷。如何快速入门并达到可以从事研发的高度对新手和中级水平的学生而言面临不少的挑战。精心准备的本课程希望帮助大家尽快掌握基于深度学习的计算机视觉的基本原理、核心算法和当前的领先技术,从而有望成为深度学习之计算机视觉方向的算法工程师和研发人员。本课程系统全面地讲述基于深度学习的计算机视觉技术的原理并进行项目实践。课程涵盖计算机视觉的七大任务,包括图像分类、目标检测、图像分割(语义分割、实例分割全景分割)、人脸识别、图像描述、图像检索、图像生成(利用生成对抗网络)。本课程注重原理和实践相结合,逐篇深入解读经典和前沿论文70余篇,图文并茂破译算法难点, 使用思维导图梳理技术要点。项目实践使用Keras框架(后端为Tensorflow),学员可快速上手。通过本课程的学习,学员可把握基于深度学习的计算机视觉的技术发展脉络,掌握相关技术原理和算法,有助于开展该领域的研究与开发实战工作。另外,深度学习之计算机视觉方向的知识结构及学习建议请参见本人CSDN博客。本课程提供课程资料的课件PPT(pdf格式)和项目实践代码,方便学员学习和复习。本课程分为上下两部分,其中上部包含课程的前五章(课程介绍、深度学习基础、图像分类、目标检测、图像分割),下部包含课程的后四章(人脸识别、图像描述、图像检索、图像生成)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值