【论文阅读】2021-(Pidinet)Pixel Difference Networks for Efficient Edge Detection

Jiazhou_garland

已于 2022-11-23 21:49:43 修改

阅读量1w

点赞数 13

分类专栏：边缘检测文章标签：深度学习 edge

于 2021-11-22 17:33:02 首次发布

本文链接：https://blog.csdn.net/qq_43019433/article/details/121374060

版权

文章目录

摘要
1. Introduction
2. Pixel Difference Convolution（PDC）
3. PiDiNet
4. 结果展示
5. 差分卷积代码实现

参考文献： Su, Z., Liu, W., Yu, Z., Hu, D., Liao, Q., Tian, Q., ... & Liu, L. (2021). Pixel Difference Networks for Efficient Edge Detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 5117-5127).

文章链接：
https://openaccess.thecvf.com/content/ICCV2021/papers/Su_Pixel_Difference_Networks_for_Efficient_Edge_Detection_ICCV_2021_paper.pdf

摘要

motivations:
基于CNN的边缘检测的高性能是通过一个大的预训练CNN主干来实现的，该主干占用大量内存和能量。传统边缘检测器（如Canny、Sobel和LBP）很少被研究。
contributions:
提出了一种简单、轻量级但有效的架构，称为像素差分网络（PiDiNet），用于有效的边缘检测。PiDiNet采用了新颖的像素差卷积，将传统的边缘检测算子集成到现代CNN中流行的卷积运算中，以增强任务性能。
experiments:
在BSDS500、NYUD和Multicue上进行了大量的实验，以证明其有效性、高训练和推理效率。当仅使用BSDS500和VOC数据集从头开始训练时，PiDiNet可以超过BSDS500数据集上记录的人类感知结果（在ODS F-measure中为0.807 vs 0.803），速度为100 FPS，参数小于1M。参数小于0.1M的更快版本的PiDiNet仍然可以以200 FPS的速度实现相当的性能。NYUD和Multicue数据集的结果显示了类似的观察结果。

1. Introduction

直观地说，边缘表现出不同的特定模式，如直线、拐角和“X”连接。一方面，传统的边缘算子受到这些直觉的启发（下图）。基于梯度计算通过显式计算像素差来编码用于边缘检测的重要梯度信息。然而，这些手工制作的边缘算子或基于学习的边缘检测算法由于其浅层结构通常不够强大。
另一方面，CNN可以学习丰富的分层图像表示，其中普通CNN内核用作探测局部图像模式。然而，CNN核是从随机初始化的，它没有对梯度信息进行显式编码，这使得它们很难聚焦于边缘相关的特征。
在这里插入图片描述
基于CNN的实现边缘检测的缺点还包括：
模型尺寸大、内存消耗大、计算成本高、运行效率低、吞吐量低、标签效率低，需要对大规模数据集进行模型预训练。

设计了一种新的卷积运算，以满足以下需要。首先，它可以很容易地捕获图像梯度信息，便于边缘检测，并且CNN模型可以更专注于处理大量不相关的图像特征。其次，深层CNN强大的学习能力仍然可以保留，以提取语义上有意义的表示，从而实现鲁棒和准确的边缘检测。在本文中，我们提出了像素差卷积（PDC），首先计算图像中的像素差，然后与核权重卷积以生成输出特征（见图3）。PDC效果如下图所示：
在这里插入图片描述

2. Pixel Difference Convolution（PDC）

像素差分卷积与普通的vanilla卷积的区别仅在于前者对像素对的差值做卷积，而后者对单个像素值做卷积。公式如下所示：
在这里插入图片描述
在具体解释PDC之前，需要扯一嘴LBP是什么东西。

LBP（Local Binary Pattern，局部二值模式）是一种用来描述图像局部纹理特征的算子；它具有旋转不变性和灰度不变性等显著的优点。它是首先由T. Ojala, M.Pietikäinen, 和D. Harwood 在1994年提出(注意与本文所属一所大学)，用于纹理特征提取。而且，提取的特征是图像的局部的纹理特征；
计算方法：
原始的LBP算子定义为在33的窗口内，以窗口中心像素为阈值，将相邻的8个像素的灰度值与其进行比较，若周围像素值大于中心像素值，则该像素点的位置被标记为1，否则为0。这样，33邻域内的8个点经比较可产生8位二进制数（通常转换为十进制数即LBP码，共256种），即得到该窗口中心像素点的LBP值，并用这个值来反映该区域的纹理信息。如下图所示：