以下是组会汇报时的PPT,贴出方便一起学习。
我将从三部分简单介绍一下,第一部分会从直观理解和数学层面来介绍问题描述,第二部分介绍作者提出的多类别损失函数,最后是核心网络架构,将会先介绍两个基础框架,分析作者是怎么提出本文框架的。
这是一幅街景图像的语义边缘检测效果图,左上角是原图,右上角是ground truth,最后是本文效果图。
首先对比一下传统的边缘检测,其实是二元与多元问题的区别。语义边缘检测不仅要检测边缘,还要为为每个边缘像素分配一个或多个语义类别。
这边这个多个,其实表明是一个多标签问题。最后我们结合左侧图看一下,可以看到五颜六色的,其实不同颜色代表不同类别,最显眼的红色代表道路,仔细看一下左上角的图例,可以看到一些组合颜色,比如建筑物加行人是绿色,体现了一个多标签,也就是同一像素分配了多个类别语义标签。
接下来从数学层面介绍本问题,简单关注一下输入输出,输入是一张图片,输出边缘图,对应输出的是像素对应于第K个语义类别的边缘概率。本文的三大贡献多类别的学习框架,新的嵌套结构和多类别的损失函数。接下来先介绍简单的多类别损失函数。
可以视作对每一类别都进行一次二分类的交叉熵(二元交叉熵是二分类问题中常用的一个Loss损失函数)。最后将k个结果叠加。二分类是判断像素是否为边缘,此处多分类需要判断像素为什么类别,作者将其拆分为K个二分类问题,也就是说它分别判断像素是否为第一类别,第二类别到第K类别的概率,再把结果叠加起来。
其中β是图像中非边缘像素的百分比,用于解释样本数的偏斜
我们马上进入核心网络架构介绍。
首先是基础网络,采用ResNet-101框架,我们看看它做了哪些改动。
我们仔细分析一下基本架构,主要看一下这边的紫色分类块,1 ×1卷积加上双线性上采样;像素属于第K类的边缘概率由sigmoid单元计算。
这部分我们介绍一下深监督嵌套架构,这边简单提一下HED网络,因为本文此部分主要参考了HED。不过他仅执行二进制的边缘检测,解决二元问题,需要拓展到本文多元问题,本文将刚刚讲到的紫色分类模块接到每个残差块的输出,产生5个侧边分类激活图。最后通过切片级联融合5个激活图。
【论文阅读】(边缘检测相关)HED:Holistically-Nested Edge Detection_Clark-dj的博客-CSDN博客
其中切片融合部分公式表示为公式2,深监督的意思就是计算6个损失。
在回顾基本架构和深度监督嵌套架构后,我们分析一下这俩架构是否适用于本文任务。
现在开始讲本文模型,我们先简单看一下他的各个模块。
之前以及比较详细的介绍了各个模块,现在看一下灰色特征提取模块和紫色分类模块的区别。
有需要PPT的可以私信我哦!