【原文链接】
【原文代码】
Yu, Z., Feng, C., Liu, M. Y., & Ramalingam, S. (2017). Casenet: Deep category-aware semantic edge detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 5964-5973).
摘要
- 区别语义的边缘分割是相对于边缘分割更难的问题,因为一个像素当它出现在物体轮廓交界处时,可能属于不同的类别。
- 我们基于ResNet和跳层连接技术提出了一个顶部卷积层的分类边源激活值共享并与相同的底层特征集融合的CNN。
- 设计了多分类的边缘检测损失函数。
- 在数据集 SBD、Cityscapes取得了SOTA的效果。
1. 引言
本文贡献:
- 我们在ResNet上提出了一种新的嵌套体系结构,其中底部特征仅用于增强顶部分类。我们表明,深度监督(deep supervision)可能对我们的问题无益。
- 为了解决边缘分类问题,我们提出了一个多标签学习框架,该框架比传统的多类框架有更好的边缘学习效果。
- 我们在SBD和Cityscapes数据集上以显著优势超过了以前最先进的方法。
2. 模型
2.1 基础模型
- 采用ResNet-101,去掉原有的平均池和全连通层,保留底层卷积块。
- 为了更好保存底层边缘信息,将ResNet-101中第一个和第五个卷积块(图中的“res1”和“res5”)的步长从2改为1。
- 在随后的卷积层中引入膨胀卷积,以保持与原始ResNet相同的感受野大小
- 添加了一个分类模块(1×1个卷积层),然后进行双线性上采样(由K分组反卷积层实现),以产生一组K个激活图{A1,····,AK},每个激活图的大小与图像相同。’
- 激活图过sigmoid激活函数得到
Y
k
(
P
)
Y_{k}(P)
Yk(P),注意
Y
k
(
P
)
Y_{k}(P)
Yk(P)并不是相互独立的。
2.2 深度监督网络结构
其中的分类块具体为下图所示,包含1x1的卷积与反卷积实现的上采用,输出K个原分辨的边缘预测图。
切片串联(slice concat),将同一类concat在一起,即如下公式:
融合分类:
通过切片串联和分组卷积,像素p的融合激活由下式给出:
2.3 深度监督网络结构
上述2.1和2.2中的基本结构以及DSN网路结果存在以下潜在相关问题:
- 底层的感受野大小受到限制,因此要求底层特征图进行边缘分割的语义分配任务很不合理。
- 底层的信息对于顶部分类、抑制非边缘像素,提供详细的边缘定位和结构信息十分有用。因此,在进行边缘检测时,必须考虑这些因素。
因此,下述设计的网络意在解决这些问题。有以下改进:
- 将底部的分类模块替换为特征提取模块。
- 将分类模块放在网络的顶端,只对其进行监督
- 执行共享连接而不是切片连接。
共享连接,其中 F = { F ( 1 ) , F ( 2 ) , F ( 3 ) } F=\{F^{(1)},F^{(2)},F^{(3)}\} F={F(1),F(2),F(3)}表示side 1-3的特征图输出:
2.4 损失函数
其中
Y
ˉ
k
\bar Y_{k}
Yˉk表示第k个语义边缘的二值标签图。
3. 结果
3.1消融实验:
- DSN是2.2中带深层监督的模型
- CASENET是2.3的模型
- CASENET-是2.3模型去掉顶层分类
- CASENet-side5表示2.3模型仅去side5的损失
3.2 量化展示
3.2 直观展示
小结
总的来说,CASENet可以被认为是一个联合的边缘检测和分类网络,通过一个跳跃层结构让低层特征参与并增强高层语义分类的优秀网络模型。
这篇文章最好的地方在于它文章写作展示了网络设计思路,通过实验证明了deep supervision不适用于语义边缘检测并针对此做出改进。