ESPNet: 自动驾驶领域轻量级分割模型

点击上方“计算机视觉工坊”,选择“星标”

干货第一时间送达

原文:ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation

论文链接:https://arxiv.org/abs/1803.06815v2


主要思想

基于传统卷积模块设计,提出一种高效空间金字塔卷积模块(ESP Module),有助于减小模型运算量和内存、功率消耗,以提高在终端设备上的适用性。这款模型和MobileNet系列、ShuffNet系列相似,都是轻量级模型,可以部署到移动端。


模型具体结构

如下图所示,模型主要有两个模块构成,一个是Efficient spatial pyramid模块,一个是HFF模块。

 

Efficient spatial pyramid

这个部分由两个子部分构成,前面部分是逐点卷积,就是采用K个1x1xM的小卷积核对原图进行卷积操作,1x1卷积的作用其实就是为了降低维度,这样就可以减少参数,这也是轻量级模型的思路。后面的部分是空洞卷积,即在没有进行下采样(pooling)的操作下,扩大感受野。使用不同膨胀率的卷积核,可以得到不同感受野下的feature,这一点有点类似金字塔池化,所以这个模块也叫ESP。


参数计算

下面来计算下一共包含的参数,其实在效果上,以这种轻量级的网络作为backbone效果肯定不如那些重量级的,比如Resnet,但是在运行速度上有很大优势。

如上图所示,对Efficient spatial pyramid第一部分来说,d个1*1*M的卷积核,将M维的输入feature map降至d维。此时参数为:M*N/K,第二部分参数量为K*n2*(N/K)2,和标准卷积结构相比,参数数量降低很多。

HFF模块

 

如上图所示,因为使用了大感受野的膨胀卷积,导致了gridding artifacts现象,如下图所示。本文提出了使用HFF方法来解决该问题,具体做法就是从最小的膨胀卷积核输出的那张feature map开始,逐级叠加。这样的做法并没有引入任何新的参数,同时计算量上也没有增加太多,但却有效地改善了网格效应。

 

这里其实就是对空洞卷积的结果进行逐层点加向下传递,然后在通道方向上进行concat,concat之后,再对之前的特征做一个点加,这一点采用了残差的思想。


和其它模型的对比

这里,文章对其它模型和该模型做了一个对比,包括参数的数量以及核心网络结构,如下图所示。在这里,不再一一阐述。

 

ESPNet模型

作者提出了四种模型,分别如下图所示。

 

下面是以不同网络模型作为backbone的语义分割网络在VOC数据上的表现效果。

 

可以发现,ESPNet在较少的参数下,依然取得了很好的效果。


源代码

作者开源了基于ESPNet的语义分割网络源代码,支持测试和训练。下面为kitti数据集上的测试效果。

源代码链接:

https://github.com/sacmehta/ESPNet

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值