目标检测(五)：用个人数据集实现SSD-Pytorch的训练与预测

最新推荐文章于 2023-11-13 17:12:05 发布

犬冢紬希

最新推荐文章于 2023-11-13 17:12:05 发布

阅读量7.9k

点赞数 9

分类专栏：目标检测系列文章笔记文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_41936775/article/details/116430860

版权

SSD模型肠镜图像 LST肿瘤检测数据集转换 mAP计算

关键词由CSDN通过智能技术生成

目标检测系列文章笔记专栏收录该内容

7 篇文章

订阅专栏

步骤0：环境

因为电脑配置比较差（NVIDIA Geforce MX230，2G），就不想自己尝试训练 SSD，但是五一假期马上要结束了，避免再见导师时被追问进度，还是硬着头皮试试看了。

我用的图像是肠镜图片，目的是检测其上是否有LST肿瘤（也就是病变区域）。对于存在LST的图像，希望返回有边界框标注病变区域的图片，对于正常图像则返回原图。

所以接下来的内容将存在LST的图像记为病变图像，否则为正常图像。数据集情况如下：

批次	正常图像	病变图像
01	181张	162张
02	61张	109张

一共 513 张图像(大概率就是这个数量少导致我第一次训练+预测失败)。

step0：环境配置

我是90%的参考了该up主的配置，Anaconda + cuda10.0 + cudnn7.4.1.5 + torch1.2.0 + torchvision0.4.0，亲测可用奥。

深度学习环境配置-Anaconda以及pytorch1.2.0的环境配置

剩下的10%就是我用的 Pycharm 而不是 VS，视频教程真的超贴心了，下面是文字版的教程。

神经网络学习小记录48——windows下的torch=1.2.0环境配置

步骤1：数据集转换

在上一篇文章末尾已介绍了数据集如何转换为可供训练 SSD 使用的格式，这里再简单记录一下。

step1：用 `voc2ssd.py` 生成索引文件

按照 VOCdevkit 的格式，在 VOC2007 下有三个文件夹：

Annotations：用于存放标签文件；
ImageSets：用于存放索引文件；
JPEGimages：用于存放图像文件。

正常图像的标签文件中没有目标信息，而病变图像标签文件中的目标信息至少为1个，比如：

划重点啦！！！如何获取索引文件

在 ImageSets 目录下有个 Main 文件夹，包含：
test.txt、teain.txt、trainval.txt、val.txt 均用于存放图像文件和标签文件的索引内容。

然后在根目录下的 voc2ssd.py ，我们需要按照自己的需求设置测试集的比例，我是打算用 20% 的图作为测试集，也就是 103 张图。修改部分为：

3.1
然后运行根目录下的 voc2ssd.py 来生成 test.txt、teain.txt、trainval.txt、val.txt 四个文件。

因为我用的是 Pycharm，所以直接运行子目录下的 voc2ssd.py 会报错： FileNotFoundError: [WinError 3] 系统找不到指定的路径。: './VOCdevkit/VOC2007/Annotations'

最直接的解决办法是把 voc2ssd.py 放到根目录下去运行，然后就可以得到我们需要的索引文件了。

step2：用 `voc_annotation.py` 生成用于训练的文件

用于训练的 txt 文件有三个：
2007_test.txt、2007_train.txt、2007_val.txt。

需要用到的代码是 voc_annotation.py，需要修改的地方如下图红框标注：

然后直接运行即可。

步骤2：训练网络

开始训练之前需要按照自己的数据集修改一些参数，具体如下。

step3：修改 `config.py` 文件

step4：运行 `train.py` 文件

训练好的权重会保存在 logs目录下。下图是生成的部分权值文件。

步骤3：预测

step5：修改根目录下 `ssd.py` 文件

step6：修改nets目录下 `ssd.py` 文件

step7：运行 `predict.py` 文件

运行后输入图像名称 img/101001.jpg，放一个预测成功的图。

踩坑记

由于配置问题、或参数设置，训练可能以各种原因失败，我第一次训练就以显存不足结束了，可能是没训练好，或者数据集太少或者…，预测时病变图像也不显示预测框，然后就开始各种百度需要修改哪些参数，好在第二次训练慢悠悠地成功结束了，预测图至少也有预测框了。

第一次没有修改原代码的学习率、epoch等参数，之后训练失败，根据 显存不足和预测图像不显示预测框 这两点查了些解决方式：

显存不足的话可以降低 batch_size，所以我将原代码中的 batch_size 缩小了一半；
不显示预测框可能是由于目标较小，而 SSD 对小目标不敏感，或者是由于数据集过少导致网络没有训练好，在数据集暂时无法增加的情况下只能从小目标下手了，所以我降低了 IoU阈值，就是啥也不知道盲猜的，但是好歹结果有点改善。

第二次训练就很随意的盲改了参数，如下：

参数	修改前	修改后
`nets/ssd.py`中：`detect()` 的参数 `nms_thresh`	0.45	0.35
`nets/ssd.py`中：`get_ssd()` 的参数 `confidence`	0.5	0.4
`nets/ssd.py`中：`get_ssd()` 的参数 `nms_iou`	0.45	0.35
`utils/box_utils.py`中：`nms()` 的参数 `overlap`	0.5	0.3
`train.py`中：`MultiBoxLoss` 的参数 `overlap_thresh`	0.5	0.3
`train.py`中：batch_size & epoch	16, 50	8, 30
`train.py`中：batch_size & epoch	8, 50,100	4, 30, 60

这些参数就是凭感觉改的，如果有不对的地方请各位指出来。
今天写到这里差不多了，good night。

——————————————————————————————————————————
——————————————————————————————————————————
来补充内容了。既然能够成功预测一张图，那么对一个测试集的预测效果能达到什么程度才是我们主要关心的问题，所以我尝试着进行批量预测，并计算 mAP 值。

步骤4：批量预测

step8：修改 `predict.py` 文件

修改的目的是为了能进行整个测试集的批量预测，所以我们需要遍历测试集并对每一张图进行预测。修改后的代码如下：

from PIL import Image
from ssd import SSD
from tqdm import tqdm
import os

ssd = SSD()

# 这部分用于单张图片预测
# while True:
#     img = input('Input image filename:')
#     try:
#         image = Image.open(img)
#     except:
#         print('Open Error! Try again!')
#         continue
#     else:
#         r_image = ssd.detect_image(image)
#         r_image.save("img.jpg")
#         r_image.show()

# 以下用于批量预测
image_ids = open('VOCdevkit/VOC2007/ImageSets/Main/test.txt').read().strip().split()  

for image_id in tqdm(image_ids):  # 遍历测试图像
    image_path = "./VOCdevkit/VOC2007/JPEGImages/" + image_id + ".jpg"  # 原图像的存储路径
    try:
        image = Image.open(image_path)
    except:
        print('Open Error! Try again!')
        continue
    else:
        r_image = ssd.detect_image(image)  # 使用网络进行预测
        image_results_path = "./image_results/"  # 创建用于存放预测好的图像的文件夹
        if not os.path.exists(image_results_path):
            os.mkdir(image_results_path)
        r_image.save(os.path.join(image_results_path, image_id+".jpg"))  # 存储图像