数据集内存加载方式

最新推荐文章于 2024-08-07 21:56:36 发布

周星星✘

最新推荐文章于 2024-08-07 21:56:36 发布

阅读量321

点赞数 5

文章标签：人工智能深度学习算法

本文链接：https://blog.csdn.net/qq_45152711/article/details/139062585

版权

选择哪种方式更好取决于多个因素，包括数据集的大小、可用的系统内存、训练效率以及I/O性能。下面我将比较两种方式的优缺点，帮助你选择合适的方案。

方式一：按需加载批次数据

优点：

内存占用较小：每次只加载当前批次的数据，适用于内存有限的系统。
更适合非常大的数据集：即使数据集非常大，也可以处理，因为只需一次加载一个批次。

缺点：

加载时间增加：在每个批次切换时会有加载数据的开销，可能影响训练效率。
更频繁的I/O操作：每次需要从磁盘加载数据，会导致更多的I/O操作。

方式二：预先加载所有批次数据

优点：

加载时间减少：训练期间不需要频繁加载数据，可以显著提高训练效率。
减少I/O操作：所有数据预先加载到内存中，训练过程中不会频繁访问磁盘。

缺点：

内存占用较大：需要足够的内存来存储整个数据集，不适合内存有限的系统。
预加载时间较长：初始化时需要花费时间加载所有数据，但这个时间通常只会在训练开始时消耗一次。

选择建议

数据集较小且内存充足：如果数据集较小并且系统内存充足，选择预先加载所有批次数据。这样可以最大化训练效率，减少训练过程中I/O操作的开销。
数据集较大且内存有限：如果数据集非常大或者系统内存有限，选择按需加载批次数据。这样可以有效管理内存，但需要接受每个批次加载时的时间开销。
数据集适中且内存适中：在这种情况下，可以考虑折中方案，比如预先加载部分数据或使用内存映射技术来优化数据加载。

实际测试

如果不确定哪种方式更适合你的情况，建议实际测试两种方案，并记录以下几个指标：

训练时间：记录完整训练过程所需的时间。
内存使用情况：监控内存占用情况，确保不会导致系统内存不足。
I/O负载：检查系统的I/O负载，确保不会因为频繁的数据加载导致性能瓶颈。

代码示例

为了便于比较，可以分别实现按需加载和预先加载的数据集类，然后进行测试。

按需加载批次数据：

class OnDemandNumpyDataset(Dataset):
    def __init__(self, npy_dir, batch_size=10000, transform=None):
        self.npy_dir = npy_dir
        self.batch_size = batch_size
        self.transform = transform
        self.image_files = sorted([f for f in os.listdir(npy_dir) if f.startswith('images_batch_') and f.endswith('.npy')])
        self.mask_files = sorted([f for f in os.listdir(npy_dir) if f.startswith('masks_batch_') and f.endswith('.npy')])
        self.current_batch = 0
        self.images, self.masks = self.load_batch(self.current_batch)
        self.num_batches = len(self.image_files)
        self.dataset_size = len(self.images) * self.num_batches

    def load_batch(self, batch_index):
        start_time = time.time()
        images = np.load(os.path.join(self.npy_dir, self.image_files[batch_index]))
        masks = np.load(os.path.join(self.npy_dir, self.mask_files[batch_index]))
        load_time = time.time() - start_time
        print(f"Loaded batch {batch_index} in {load_time:.4f} seconds")
        return images, masks

    def __len__(self):
        return self.dataset_size

    def __getitem__(self, idx):
        batch_idx = idx // self.batch_size
        within_batch_idx = idx % self.batch_size

        if batch_idx != self.current_batch:
            self.images, self.masks = self.load_batch(batch_idx)
            self.current_batch = batch_idx

        image = self.images[within_batch_idx]
        mask = self.masks[within_batch_idx]

        if self.transform:
            image = self.transform(image)
            mask = self.transform(mask)

        return torch.tensor(image, dtype=torch.float32), torch.tensor(mask, dtype=torch.float32)

预先加载所有批次数据：

class PreloadNumpyDataset(Dataset):
    def __init__(self, npy_dir, transform=None):
        self.npy_dir = npy_dir
        self.transform = transform
        self.image_files = sorted([f for f in os.listdir(npy_dir) if f.startswith('images_batch_') and f.endswith('.npy')])
        self.mask_files = sorted([f for f in os.listdir(npy_dir) if f.startswith('masks_batch_') and f.endswith('.npy')])
        self.images, self.masks = self.load_all_batches()
        self.dataset_size = len(self.images)

    def load_all_batches(self):
        all_images = []
        all_masks = []
        for i, (img_file, mask_file) in enumerate(zip(self.image_files, self.mask_files)):
            start_time = time.time()
            images = np.load(os.path.join(self.npy_dir, img_file))
            masks = np.load(os.path.join(self.npy_dir, mask_file))
            load_time = time.time() - start_time
            print(f"Loaded batch {i} in {load_time:.4f} seconds")
            all_images.append(images)
            all_masks.append(masks)
        all_images = np.concatenate(all_images, axis=0)
        all_masks = np.concatenate(all_masks, axis=0)
        return all_images, all_masks

    def __len__(self):
        return self.dataset_size

    def __getitem__(self, idx):
        image = self.images[idx]
        mask = self.masks[idx]

        if self.transform:
            image = self.transform(image)
            mask = self.transform(mask)

        return torch.tensor(image, dtype=torch.float32), torch.tensor(mask, dtype=torch.float32)

测试代码：

import time
from torch.utils.data import DataLoader

# 测试按需加载
print("Testing On-Demand Loading")
on_demand_dataset = OnDemandNumpyDataset(npy_dir='path_to_npy_files_directory')
on_demand_loader = DataLoader(on_demand_dataset, batch_size=32, shuffle=True)
start_time = time.time()
for images, masks in on_demand_loader:
    pass  # 在这里执行你的训练或验证步骤
end_time = time.time()
print(f"Total on-demand data loading time: {end_time - start_time:.4f} seconds")

# 测试预加载
print("Testing Preloaded Data")
preload_dataset = PreloadNumpyDataset(npy_dir='path_to_npy_files_directory')
preload_loader = DataLoader(preload_dataset, batch_size=32, shuffle=True)
start_time = time.time()
for images, masks in preload_loader:
    pass  # 在这里执行你的训练或验证步骤
end_time = time.time()
print(f"Total preloaded data loading time: {end_time - start_time:.4f seconds}")