弱监督网络CheXNet复现心得

最新推荐文章于 2024-03-12 13:02:15 发布

sp7414

最新推荐文章于 2024-03-12 13:02:15 发布

阅读量612

点赞数 2

分类专栏：学习心得文章标签： python 深度学习

本文链接：https://blog.csdn.net/sp7414/article/details/109521085

版权

学习心得专栏收录该内容

11 篇文章 1 订阅

订阅专栏

最近由于项目需要，开始研究弱监督算法的实现，从最开始查阅相关概念到现在复现接近尾声，出现了不少问题和小坑，这篇博客简单记录一下复现过程中的心路历程。其中有很多是很显而易见的问题，也一并说一下。

数据准备

不得不说，这个项目对数据的要求十分严格，可能也注定其泛化性不强。出于检测其可行性的想法，我首先选取了实验室一个前期准备过的单类目标进行训练，共计图像2030张，我选取1800张作为训练，230张作为验证（我把测试集和验证集重合了，考虑到这样能充分利用这个小小的数据集）。其中，选取200张图像的标签作为有监督部分的训练。

在上一篇博客中（自建py文件，实现读取XML文件，并对其中值进行计算的功能）我提到，整个数据准备需要两个.csv文件和两个.txt文件，其中，.csv文件的生成花了我很长时间，先看一下它们的结构：

Data_Entry_2017_v2020_.csv

在这里插入图片描述

BBox_List_2017.csv

在这里插入图片描述
可以看到，前者提供所有输入图像的名称和包含类别名称，后者提供带有标签的图像名称、包含类别名称和 bounding box 的 x,y,w,h 四个参数。

在上一篇博客中我说Data_Entry_2017_v2020.csv这个文件没有调用，是一个错误的判断，后来分析preprocessing.py的代码，发现Data_Entry_2017_v2020.csv这个文件是被read的，所以根据原始文件的形式，进行了修改，这个过程完成通过手动操作，复制粘贴图像名称，2030张图像花费了不少时间，我想，一定要有一个自动写入excel表格的脚本，以满足将来项目数据几万张图像的需要。

运行preprocessing.py文件后，生成 label_encoder.pkl、train_X_small.npy、train_y_onehot.pkl、valid_X_small.npy、valid_y_onehot.pkl 四个文件，以满足 train.py 的需要。