基于pytorch的fcn_FCN 的简单实现

最新推荐文章于 2024-03-03 19:13:37 发布

诚毅学长

最新推荐文章于 2024-03-03 19:13:37 发布

阅读量1.5k

点赞数 1

文章标签：基于pytorch的fcn

本文链接：https://blog.csdn.net/weixin_35063366/article/details/111948732

版权

这篇博客介绍了基于PyTorch实现全卷积网络(FCN)进行语义分割的过程，包括数据集准备、数据预处理、转置卷积的概念及应用、模型构建和训练。通过PASCAL VOC数据集，博主展示了如何使用FCN进行像素级别的图像分类，同时讨论了双线性内核在上采样中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

学习了沐神的 gluon 课程，觉得里面有关于 fcn 的课程特别有用，于是总结一下，同时使用 pytorch 重新实现，不仅实现 gluon 教程中的部分，同时实现论文中更精细的形式。

介绍

语义分割是一种像素级别的处理图像方式，对比于目标检测其更加精确，能够自动从图像中划分出对象区域并识别对象区域中的类别，比如下面这个效果

上面是输入的图片，下面是希望得到的效果，也就是希望能够对区域进行像素级别的划分

在 2015 年 CVPR 的一篇论文 Fully Convolutional Networks for Semantic Segmentation 这篇文章提出了全卷积的概念，第一次将端到端的卷积网络推广到了语义分割的任务当中，随后出现了很多基于 FCN 实现的网络结构，比如 U-Net 等。

数据集

首先我们需要下载数据集，这里我们使用 PASCAL VOC 数据集，其是一个正在进行的目标检测,目标识别,语义分割的挑战，我们可以进行数据集的下载

下载完成数据集之后进行解压，我们可以在 ImageSets/Segmentation/train.txt 和 ImageSets/Segmentation/val.txt 中找到我们的训练集和验证集的数据，图片存放在 /JPEGImages 中，后缀是 .jpg，而 label 存放在 /SegmentationClass 中，后缀是 .png

我们可以可视化一下

首先输出图片的大小，左边就是真实的图片，右边就是分割之后的结果

然后我们定义一个函数进行图片的读入，根据 train.txt 和 val.txt 中的文件名进行图片读入，我们不需要这一步就读入图片，只需要知道图片的路径，之后根据图片名称生成 batch 的时候再读入图片，并做一些数据预处理

voc_root = './data/VOCdevkit/VOC2012'

def read_images(root=voc_root, train=True):

txt_fname = root + '/ImageSets/Segmentation/' + ('train.txt' if train else 'val.txt')

with open(txt_fname, 'r') as f:

images = f.read().split()

data = [os.path.join(root, 'JPEGImages', i+'.jpg') for i in images]

label = [os.path.join(root, 'SegmentationClass', i+'.png') for i in images]

return data, label

数据预处理

可能你已经注意到了前面展示的两张图片的大小是不一样的，如果我们要使用一个 batch 进行计算，我们需要图片的大小保持一致，在前面使用卷积网络进行图片分类的任务中，我们通过 resize 的办法对图片进行了缩放，使得他们的大小相同，但是这里会遇到一个问题，对于输入图片我们当然可以 resize 成任意我们想要的大小，但是 label 也是一张图片，且是在 pixel 级别上的标注，所以我们没有办法对 label 进行有效的 resize 似的其也能达到像素级别的匹配，所以为了使得输入的图片大小相同，我们就使用 crop 的方式来解决这个问题，也就是从一张图片中 crop 出固定大小的区域，然后在 label 上也做同样方式的 crop。

使用 crop 可以使用 pytorch 中自带的 transforms，不过要稍微改一下，不仅输出 crop 出来的区域，同时还要输出对应的坐标便于我们在 label 上做相同的 crop

def rand_crop(data, label, height, width):

'''data is PIL.Image objectlabel is PIL.Image object'''

data, rect = tfs.RandomCrop((height, width))(data)

label = tfs.FixedCrop(*rect)(label)

return data, label

下面我们可以验证一下随机 crop

上面就是我们做两次随机 crop 的结果，可以看到图像和 label 能够完美的对应起来

接着我们根据数据知道里面有 21 中类别，同时给出每种类别对应的 RGB 值

classes = ['background','aeroplane','bicycle','bird','boat',

'bottle','bus','car','cat','chair','cow','diningtable',

'dog','horse','motorbike','person','potted plant',