论文:deeplab v3(语义分割)

本文深入探讨了Deeplab v3如何利用空洞卷积来解决语义图像分割中的全局特性问题。通过空洞卷积、多层次网格方法和空洞空间金字塔池化ASPP,模型能够捕获更多的上下文信息,提高分割精度。 Deeplab v3在减少信息丢失的同时,提取密集特征,适用于复杂场景的语义理解。
摘要由CSDN通过智能技术生成

Rethinking Atrous Convolution for Semantic Image Segmentation

论文:https://arxiv.org/abs/1706.05587
代码:deeplab_v3other

相关阅读:更多

翻译:DeepLab V3 论文笔记


全局特性或上下文相关

许多工作证明了全局特性或上下文相关有助于语义分割。全局特性或上下文相关会产生长期依赖问题,即模型会遗忘比较久的信息。

解决方法:

第一种方法是增大卷积核的步幅,“长期”(卷积核平移步数)变短了,也就缓解遗忘症。

第二种方法是增大感受野,“长期”(卷积核平移步数)变短了,也就缓解遗忘症:

  • 最直接就是增大卷积核,但是会增加计算量;
  • 图像金字塔(Image Pyramid),多尺度输入(输入尺度越小,感受野越大),最后合并;
  • Encoder-Decoder,Encoder使用CNNs提取特征,分辨率减小的过程就是感受野增大的过程;
  • 空洞卷积(Atrous Convolution),通过修改空洞率rate调节,相当于增大卷积核;
  • 空间金字塔池化(Spatial pyramid pooling),复制网络中原始的最后一个块的几个副本,并将它们级联排列,它并行地包含了几个空洞卷积;
  • 上下文相关模块,以级联的方式对长期上下文进行编码;

在这里插入图片描述


使用空洞卷积提取密集特征

考虑二维信号,对于输出y上的每个位置i和一个滤波器w,在输入特征映射x上应用空洞卷积:
y [ i ] = ∑ k x [ i + r ⋅ k ] w [ k ] y[i] =\sum_k x[i + r · k]w[k] y[i]=

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值