计算机视觉与深度学习-图像分割-视觉识别任务01-语义分割-【北邮鲁鹏】

最新推荐文章于 2024-08-19 07:33:13 发布

我要成果

最新推荐文章于 2024-08-19 07:33:13 发布

阅读量1.6k

点赞数 1

分类专栏： # 计算机视觉文章标签：计算机视觉深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_49683806/article/details/132995595

版权

计算机视觉专栏收录该内容

18 篇文章 1 订阅

订阅专栏

本文介绍了视觉识别任务中的语义分割，探讨了滑动窗口方法的缺点，全卷积的优缺点，以及下采样、上采样（包括pooling、unpooling、IndexUnpooling和MaxUnpooling）、转置卷积和UNET在解决这些问题上的应用。

摘要由CSDN通过智能技术生成

目录

视觉识别任务
语义分割

视觉识别任务

在这里插入图片描述

语义分割

语义分割定义

给每个像素分配类别标签。

不区分实例，只考虑像素类别。

在这里插入图片描述

语义分割思路：滑动窗口

在这里插入图片描述

滑动窗口缺点

重叠区域的特征反复被计算，效率很低。

所以针对该问题提出了新的解决方案–全卷积。

语义分割思路（全卷积）

让整个网络只包含卷积层，一次性输出所有像素的类别预测。
在这里插入图片描述

全卷积优点

不用将图片分为一个个小区域然后再对这一个个小区域进行分类，而是一次性输出像素的类别预测，减少了重叠区域重复计算，从而减少了运算量，加快了运算速度。

全卷积缺点

1 处理过程中一直保持原始分辨率，即卷积过程中一直保持图片长宽不变。对于显存的需求会非常庞大，甚至使得前向数据不能完整的保存在显存中。

针对这个问题，提出了先下采样然后上采样。

2 上采样是根据下采样得到的高级语义得到的，但是有时候高级语义效果并不好，还需要使用低级语义。

针对这个问题，提出了Unet，将下采样过程中的低级语义整合到上采样过程中，从而使得效果更好。

先下采样再上采样

在这里插入图片描述

下采样算法

pooling（池化）

strided convolution

上采样算法

unpooling（反池化）

nearest neighbor

对于每个池化区域，最近邻反池化会将池化后的值复制到恢复区域的每个位置，以填充恢复区域。这样，可以将特征图恢复到与池化之前相同的尺寸。
在这里插入图片描述
需要注意的是，最近邻反池化是一种近似的逆操作，因为池化操作中的信息丢失是不可逆的。因此，最近邻反池化只能恢复到大致相似的尺寸和分布，而无法完全还原原始特征图。

bed of nails

对于每个池化区域，最近邻反池化会将池化后的值把数据放在左上角，其他位置置零，以填充恢复区域。这样，可以将特征图恢复到与池化之前相同的尺寸。
在这里插入图片描述

unpooling缺点

人为给定的像素值可能是噪声。
人为给定的非0像素值可能原来并不在当前位置。

针对这些问题，提出了反池化操作思想–index Unpooling。

Index Unpooling

Index Unpooling的基本原理是根据池化时记录的最大值索引位置，将池化后的特征值放回到对应的恢复区域中。具体而言，对于每个最大值索引位置，Index Unpooling会将一个固定的值（例如1）放置在对应的恢复区域中，其余位置为零。通过这种方式，可以恢复出与池化之前相同尺寸的特征图。

max unpooling（反池化）

方式一（固定写死）

对于一些模型来说，上采样和下采样的结构往往是对称的，可以在下采样的Max Pooling时记录最大值的位置，在unpooling的时候把数据还原到最大值的位置，其余位置置零。

在这里插入图片描述

转置卷积（Transpose Convolution）

方式二（自动学习）

回顾

$\times 3$ 卷积，步长（stride）1，零填充（pad）1
在这里插入图片描述

$\times 3$ 卷积，步长（stride）2，零填充（pad）1
在这里插入图片描述

一维例子
在这里插入图片描述
步长为1

下采样
在这里插入图片描述
上采样

步长为2
在这里插入图片描述

UNET

上采样是根据下采样得到的高级语义得到的，但是有时候高级语义效果并不好，还需要使用低级语义。

针对这个问题，提出了Unet，将下采样过程中的低级语义整合到上采样过程中，从而使得效果更好。

在这里插入图片描述

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
计算机视觉与深度学习-图像分割-视觉识别任务01-语义分割-【北邮鲁鹏】

语义分割：给每个像素分配类别标签。不区分实例，只考虑像素类别。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。