ESPNetv2 uses group point-wise
and depth-wise dilated separable convolutions
to learn representations from a large effective receptive field
with fewer FLOPs and parameters
使用空洞卷积后的有效感受野:
n
r
=
(
n
−
1
)
(
r
−
1
)
+
n
n_{r}=(n-1)(r-1)+n
nr=(n−1)(r−1)+n
1、EESP unit
ESP先使用1x1的卷积降维
,再输入到后续的并行空洞卷积
模块,最后使用HFF模块
进行特征融合。不同分支的dilation rate不同,从而ESP能够学习到更大有效感受野的特征。
HFF(hierarchical feature fusion):能够消除空洞卷积带来的gridding artifacts。
EESP使用1x1的分组卷积
来代替ESP的普通卷积,深度可分离空洞卷积
代替ESP的普通空洞卷积。
Espnetv2中K值取4
Strided EESP with shortcut connection to an input image
2、Network architecture
3、Experiment
ESPNetv2网络可用于多个任务
:object classification、semantic segmentation、object detection、language modeling。
Training of Semantic segmentation
:网络训练包括两个
阶段
(1)先用一个小分辨率的图像(512 × 256 for the CityScapes dataset),使用SGD训练100个epoch,初始学习率0.007
(2)增加图像分辨率(1024 × 512 for the Cityscapes dataset),继续训练100个epoch,初始学习率0.003