pix2pix论文复现过程中数据集制作（笔记1）

sunnywmh

于 2024-05-06 17:50:45 发布

阅读量341

点赞数 7

文章标签： python pytorch

本文链接：https://blog.csdn.net/sunnywmh/article/details/138502501

版权

在使用论文中给出的数据集运行代码成功后，尝试自己制作数据集（我使用的是FMCW抗干扰数据）。但是使用论文里面给出的combine_A_and_B.py文件老是报多进程的错误，在搜索之后发现应该加入以下代码。

if __name__ == '__main__':
    multiprocessing.freeze_support()  # 确保多进程功能在冻结的可执行文件中正常工作

修改之后的combine_A_and_B.py文件如下：

import os
import numpy as np
import cv2
import argparse
import multiprocessing
from multiprocessing import Pool



def image_write(path_A, path_B, path_AB):
    im_A = cv2.imread(path_A, 1)  # python2: cv2.CV_LOAD_IMAGE_COLOR; python3: cv2.IMREAD_COLOR
    im_B = cv2.imread(path_B, 1)  # python2: cv2.CV_LOAD_IMAGE_COLOR; python3: cv2.IMREAD_COLOR
    im_AB = np.concatenate([im_A, im_B], 1)
    cv2.imwrite(path_AB, im_AB)
if __name__ == '__main__':
    multiprocessing.freeze_support()  # 确保多进程功能在冻结的可执行文件中正常工作

    # 定义命令行指令
    parser = argparse.ArgumentParser('create image pairs')
    parser.add_argument('--fold_A', dest='fold_A', help='input directory for image A', type=str,
                        default='../dataset/50kshoes_edges')  # 输入A文件夹文件
    parser.add_argument('--fold_B', dest='fold_B', help='input directory for image B', type=str,
                        default='../dataset/50kshoes_jpg')
    parser.add_argument('--fold_AB', dest='fold_AB', help='output directory', type=str, default='../dataset/test_AB')
    parser.add_argument('--num_imgs', dest='num_imgs', help='number of images', type=int, default=1000000)
    parser.add_argument('--use_AB', dest='use_AB', help='if true: (0001_A, 0001_B) to (0001_AB)', action='store_true')
    parser.add_argument('--no_multiprocessing', dest='no_multiprocessing',
                        help='If used, chooses single CPU execution instead of parallel execution', action='store_true',
                        default=False)
    args = parser.parse_args()

    for arg in vars(args):
        print('[%s] = ' % arg, getattr(args, arg))

    splits = os.listdir(args.fold_A)

    if not args.no_multiprocessing:
        pool = Pool()  # 创建一个进程池对象“pool”，用于并行处理数据；未使用 --no_multiprocessing 参数，则会执行进程池的创建。提高数据处理的效率

    for sp in splits:  # 对于”splits“下的每一个子文件
        img_fold_A = os.path.join(args.fold_A, sp)
        img_fold_B = os.path.join(args.fold_B, sp)  # 构建源图像文件夹路径
        img_list = os.listdir(img_fold_A)  # 获取图像文件夹中的文件列表
        if args.use_AB:
            img_list = [img_path for img_path in img_list if 'cmb_' in img_path]  # 使用此操作的话将筛选文件名含有‘_A.’的文件

        num_imgs = min(args.num_imgs, len(img_list))  # 计算实际使用的图像数量，取到最小值，控制合并的图像数量
        print('split = %s, use %d/%d images' % (sp, num_imgs, len(img_list)))
        img_fold_AB = os.path.join(args.fold_AB, sp)  # 输出图像的文件夹路径
        if not os.path.isdir(img_fold_AB):
            os.makedirs(img_fold_AB)  # 不存在的话就创建输出的此文件夹
        print('split = %s, number of images = %d' % (sp, num_imgs))

        # 合并循环；
        for n in range(num_imgs):
            img_name = os.path.splitext(img_list[n])[0]  # 这里将jpg格式的名字单独取出来
            name_A = img_list[n]
            path_A = os.path.join(img_fold_A, name_A)
            if args.use_AB:
                name_B = name_A.replace('_A.', '_B.')  # 检查是否使用了arg.use_AB
            else:
                name_B = f"{img_name}.png"
            path_B = os.path.join(img_fold_B, name_B)  # 构建B图像文件的完整路径
            if os.path.isfile(path_A) and os.path.isfile(path_B):
                name_AB = name_A
                if args.use_AB:
                    name_AB = name_AB.replace('_A.', '.')  # remove _A
                path_AB = os.path.join(img_fold_AB, name_AB)
                if not args.no_multiprocessing:
                    pool.apply_async(image_write, args=(path_A, path_B, path_AB))
                else:
                    im_A = cv2.imread(path_A, 1)  # python2: cv2.CV_LOAD_IMAGE_COLOR;     python3: cv2.IMREAD_COLOR
                    im_B = cv2.imread(path_B, 1)  # python2: cv2.CV_LOAD_IMAGE_COLOR; python3: cv2.IMREAD_COLOR
                    im_AB = np.concatenate([im_A, im_B], 1)
                    cv2.imwrite(path_AB, im_AB)
    if not args.no_multiprocessing:
        pool.close()
        pool.join()

按照github上的要求在datasets文件夹下面创建/path/to/data文件夹。然后再分别创建两个子文件夹A和B，A和B中再分别创建train、test、val三个子文件夹，将图片对应好名称放入文件夹中即可。最后再pycharm终端中输入以下指令：

python datasets/combine_A_and_B.py --fold_A /path/to/data/A --fold_B /path/to/data/B --fold_AB /path/to/data

完成创建

sunnywmh

关注

7
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pix2pix论文复现过程中数据集制作（笔记1）

按照github上的要求在datasets文件夹下面创建/path/to/data文件夹。然后再分别创建两个子文件夹A和B，A和B中再分别创建train、test、val三个子文件夹，将图片对应好名称放入文件夹中即可。在使用论文中给出的数据集运行代码成功后，尝试自己制作数据集（我使用的是FMCW抗干扰数据）。但是使用论文里面给出的combine_A_and_B.py文件老是报多进程的错误，在搜索之后发现应该加入以下代码。
复制链接

扫一扫