《神经网络与深度学习》学习笔记四

一、语义分割

我们⼀直使⽤⽅形边界框来标注和预测图像中的⽬标。本节将探讨语义分割(semantic segmentation)问题,它重点关注于如何将图像分割成属于不同语义类别的区域。
与⽬标检测不同,语义分割可以识别并理解图像中每⼀个像素的内容:其语义区域的标注和预测是像素级的。
计算机视觉领域还有2个与语义分割相似的重要问题,即图像分割(imagesegmentation)和实例分割(instancesegmentation)。我们在这⾥将它们同语义分割简单区分⼀下。
• 图像分割将图像划分为若⼲组成区域,这类问题的⽅法通常利⽤图像中像素之间的相关性。它在训练时不需要有关图像像素的标签信息,在预测时也⽆法保证分割出的区域具有我们希望得到的语义。以图13.9.1中的图像作为输⼊,图像分割可能会将狗分为两个区域:⼀个覆盖以⿊⾊为主的嘴和眼睛,另⼀个覆盖以⻩⾊为主的其余部分⾝体。
• 实例分割也叫同时检测并分割(simultaneous detection and segmentation),它研究如何识别图像中各个⽬标实例的像素级区域。与语义分割不同,实例分割不仅需要区分语义,还要区分不同的⽬标实例。例如,如果图像中有两条狗,则实例分割需要区分像素属于的两条狗中的哪⼀条。

语义分割:找到同一画面中的不同类型区域。

e7c4ce2ef65d4b17924ed33e41be6381.png

3f7f729eed714ee988ad3eb7fe4a1e48.png

6914c9dc3a8249d7a98fe77e45418bd9.png

432d05eaefde437988fdbe7307068a89.png

33fc28779157411c96fc01762506b8de.png

9c5c814b4f3a41ddb88e9474121b50db.png

我们通过继承⾼级API提供的Dataset类,⾃定义了⼀个语义分割数据集类VOCSegDataset。通过实现__getitem__函数,我们可以任意访问数据集中索引为idx的输⼊图像及其每个像素的类别索引。由于数据集中有些图像的尺⼨可能⼩于随机裁剪所指定的输出尺⼨,这些样本可以通过⾃定义的filter函数移除掉。此外,我们还定义了normalize_image函数,从⽽对输⼊图像的RGB三个通道的值分别做标准化。

• 语义分割通过将图像划分为属于不同语义类别的区域,来识别并理解图像中像素级别的内容。
• 语义分割的⼀个重要的数据集叫做Pascal VOC2012。
• 由于语义分割的输⼊图像和标签在像素上⼀⼀对应,输⼊图像会被随机裁剪为固定尺⼨⽽不是缩放。

二、反卷积与反池化

到⽬前为⽌,我们所⻅到的卷积神经⽹络层,例如卷积层和汇聚层,通常会减少下采样输
⼊图像的空间维度(⾼和宽)。然⽽如果输⼊和输出图像的空间维度相同,在以像素级分类的语义分割中将会很⽅便。例如,输出像素所处的通道维可以保有输⼊像素在同⼀位置上的分类结果。
为了实现这⼀点,尤其是在空间维度被卷积神经⽹络层缩⼩后,我们可以使⽤另⼀种类型的卷积神经⽹络层,它可以增加上采样中间层特征图的空间维度。本节将介绍 转置卷积(transposed convolution)(Dumoulinand Visin, 2016),⽤于逆转下采样导致的空间尺⼨减⼩

让我们暂时忽略通道,从基本的转置卷积开始,设步幅为1且没有填充。假设我们有⼀个n h × n w 的输⼊张量和⼀个k h ×k w 的卷积核。以步幅为1滑动卷积核窗⼝,每⾏n w 次,每列n h 次,共产⽣n h n w 个中间结果。每个中间结果都是⼀个(n h + k h − 1) × (n w + k w − 1)的张量,初始化为0。为了计算每个中间张量,输⼊张量中的每个元素都要乘以卷积核,从⽽使所得的k h ×k w 张量替换中间张量的⼀部分。请注意,每个中间张量被替换部分的位置与输⼊张量中元素的位置相对应。最后,所有中间结果相加以获得最终结果。

70c3efcd71574391bfee802371583c53.png

6368b0376734442985c0ce2034883bab.png

三、FCN

a452d31dbef04c819846c421dfb7df98.png

7d055a12e0a34e328691de05d2fe9a17.png

ef8ad575cd14420189c7a36f3ac6091b.png

c8fd6a53244b45a3b6a9f53c12c17846.png

2bc36f24975049cd8635599d93a75546.png

bc38c4869a9549b389148fee8cdc4462.png

97438fdc1bac4b4fab4102f8d80c04d4.png

630b839a374f4a908733748ce9cb4268.png

c52e3972e8f8489eb505834f17b09803.png

67c65ddc217445fdb0d10719171becd4.png

0807fbfdc085489b90fdc10f481b7421.png

d0e2abdcc28c4562af644ba49fa1cd66.png

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值