Dataset

ZilliaxBergling

已于 2024-08-05 10:17:20 修改

阅读量340

点赞数 6

分类专栏： Pytorch 文章标签：深度学习人工智能

于 2024-08-05 09:54:01 首次发布

本文链接：https://blog.csdn.net/RaltBergling/article/details/140917054

版权

Pytorch 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

1.帮助

# help()可以查询括号里方法的使用技巧
help(Dataset)

# ??可以查询前面方法的使用技巧
Dataset??

2.Dataset

在 PyTorch 中，Dataset 是一个用于表示数据集的抽象类。它是 torch.utils.data 模块的一部分，提供了一种方便的方式来处理和加载数据。自定义数据集通常通过继承 Dataset 类来实现，并重载以下两个方法：

1. __len__(self): 返回数据集中样本的数量。
2. __getitem__(self, idx): 支持索引操作，使得可以通过索引获取数据集中的样本。
通过继承 Dataset 类并实现上述方法，用户可以方便地创建自定义的数据集，并与其他 PyTorch 组件（如 DataLoader）配合使用。以下是一个简单的示例：

import torch
from torch.utils.data import Dataset

class CustomDataset(Dataset):
    def __init__(self, data, labels):
        self.data = data
        self.labels = labels

# 样本数量
    def __len__(self):
        return len(self.data)

# 索引输出样本数据和对应标签
    def __getitem__(self, idx):
        sample = self.data[idx]
        label = self.labels[idx]
        return sample, label

# 示例数据
data = torch.tensor([[1, 2], [3, 4], [5, 6], [7, 8]])
labels = torch.tensor([0, 1, 0, 1])  # 0和1分别代表不同的类别

# 创建数据集实例
dataset = CustomDataset(data, labels)

# 访问数据集中的样本
print(dataset[0])  # 输出: (tensor([1, 2]), tensor(0))
print(len(dataset))  # 输出: 4

其中的labels指的是与数据样本相关联的目标值或类别，相当于对于数据进行一个分类，比如代码里的0和1，可以指猫和狗，dataset[0]指代的样本labels是0，就可以理解为这是个猫。然而事实上label会更加复杂一些，一般都是txt文件存贮。

后续代码都会使用以下声明：

from torch.utils.data import Dataset
import torch
import cv2
from PIL import Image
import os

        torch, Dataset: PyTorch 的核心模块，用于创建和管理数据集。
        Image from PIL: 用于图像处理。
        os: 用于处理文件路径。
        cv2: OpenCV 库，用于图像处理（可选）。

1.获取图像信息

1.获取图像宽度和高度

# 图像文件路径，使用双斜杠表示
img_path = 'E:\\PyCharm_Project\\Pytorch_2.3.1\\pytorch_2024_06_06_01\\Dataset_a_b\\train\\ants\\0013035.jpg'

# 打开图像文件
img = Image.open(img_path)

# 获取图像的尺寸（宽度和高度）
print(img.size)

2.直接在电脑默认的图片管理器里展示图片

#img.show，在默认的图片查看器里打开;img是直接在编译器里展示
img.show()
img

3.获取指定目录下的所有文件并将其存储在一个列表中

# 指定图像文件夹路径
dir_path = 'E:\\PyCharm_Project\\Pytorch_2.3.1\\pytorch_2024_06_06_01\\Dataset_a_b\\train\\ants'

# 获取文件夹中的所有文件和子目录的列表
img_path_list = os.listdir(dir_path)

# 打印文件列表
print(img_path_list)

输出结果如下，获得图片名字和格式：

4.获取相对的最深地址

# root地址为训练集的地址，IMG地址为蚂蚁图片的文件夹
root_dir = 'E:\\PyCharm_Project\\Pytorch_2.3.1\\pytorch_2024_06_06_01\\Dataset_a_b\\train'
img_dir = 'E:\\PyCharm_Project\\Pytorch_2.3.1\\pytorch_2024_06_06_01\\Dataset_a_b\\train\\ants'

# 获取相对于 root_dir 的相对路径
relative_path = os.path.relpath(img_dir, root_dir)

# 拼接 root_dir 和相对路径
path = os.path.join(root_dir, relative_path)

# 输出path获得'E:\\PyCharm_Project\\Pytorch_2.3.1\\pytorch_2024_06_06_01\\Dataset_a_b\\train\\ants'
print(path)

5.获得某个图片的名字和地址

#获得第一张图片的名字
img_name = img_path[0]
img_name

# 要获得特定图像的完整路径，可以使用 os.path.join 将根目录、标签目录和图像名称拼接在一起。
# 获取完整的图像路径
img_item_path = os.path.join(root_dir, img_dir, img_name)

# 打印图像路径
print(img_item_path)

# 获得该图片
img = Image.open(img_item_path)
img

6.完整的Dataset获取图片信息方法

图片在ants文件夹里

import os
from torch.utils.data import Dataset
from PIL import Image

# 自定义Mydataset
class MyDataset(Dataset):
    def __init__(self, root_dir, img_dir):    # 初始化
        self.root_dir = root_dir
        self.img_dir = img_dir
        self.path = os.path.join(self.root_dir, img_dir)    # 获得最深地址
        self.img_paths = os.listdir(self.path)    # 图片地址

    def __getitem__(self, index):
        img_name = self.img_paths[index]    # 获得索引的图片名字
        img_item_path = os.path.join(self.path, img_name)  # 使用 self.path 而不是拼接 root_dir 和 img_dir
        img = Image.open(img_item_path).convert('RGB')  # 确保图像是 RGB 模式,以便处理彩色图像
        label = os.path.basename(self.img_dir)  # 使用目录名称作为标签
        return img, label

    def __len__(self):
        return len(self.img_paths)

root_dir = 'E:\\PyCharm_Project\\Pytorch_2.3.1\\pytorch_2024_06_06_01\\Dataset_a_b\\train'
ants_label_dir = 'ants'

ants_dataset = MyDataset(root_dir, ants_label_dir)
img, label = ants_dataset[0]    #获得第一张图片的信息

print(img, label)

# 输出结果：(<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=768x512>,
 'E:\\PyCharm_Project\\Pytorch_2.3.1\\pytorch_2024_06_06_01\\Dataset_a_b\\train\\ants')


# 必须是img,label;否则不会打印图片，img打印图片，label打印地址
img,label = ants_dataset[1]
img
label

2.操作数据集

1.拼接数据集

# 创建bee的图片地址
bees_img_dir = 'E:\\PyCharm_Project\\Pytorch_2.3.1\\pytorch_2024_06_06_01\\Dataset_a_b\\train\\bees'

# 创建bee的数据集
bees_dataset = MyDataset(root_dir,bees_img_dir)

# 打印第一张图片的信息
print(bees_dataset[0])
img_b,label_b = bees_dataset[0]
img_b.show()

#拼接数据集
train_dataset = bees_dataset + ants_dataset

#此时打印出来的是bee数据集的第一个图片信息
print(train_dataset[0])

2.打印数据集样本数量

#打印数据集数量，121，124，245
print(len(bees_dataset))
print(len(ants_dataset))
print(len(train_dataset))

#是先蜜蜂后蚂蚁，是按加法前后顺序来的
img_t,label_t = train_dataset[123]
img_t.show()

3.label写入

# 整个训练集的根地址
root_dir = 'E:\\PyCharm_Project\\Pytorch_2.3.1\\pytorch_2024_06_06_01\\Dataset_a_b\\train'

# 目标地址
target_dir = 'ants'

# 图片地址
img_dir = os.path.join(root_dir, target_dir)
img_path_list = os.listdir(img_dir)

# 定义label为ants，并选定labels存储地址为ants_label
label = "ants"
out_dir = 'E:\\PyCharm_Project\\Pytorch_2.3.1\\pytorch_2024_06_06_01\\Dataset_a_b\\train\\ants_label'

# 确保输出目录存在
os.makedirs(out_dir, exist_ok=True)

# 循环读取 list 里的图片
for img_name in img_path_list:
    # 分割 .jpg，把名称割出来
    file_name = os.path.splitext(img_name)[0]
    # 创建并写入 label
    label_file_path = os.path.join(out_dir, "{}.txt".format(file_name))
    with open(label_file_path, 'w') as f:
        f.write(label)

# 列出 label 文件夹中的所有文件
label_path_list = os.listdir(out_dir)
print(label_path_list)

ZilliaxBergling

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Dataset

其中的labels指的是与数据样本相关联的目标值或类别，相当于对于数据进行一个分类，比如代码里的0和1，可以指猫和狗，dataset[0]指代的样本labels是0，就可以理解为这是个猫。在 PyTorch 中，Dataset 是一个用于表示数据集的抽象类。它是 torch.utils.data 模块的一部分，提供了一种方便的方式来处理和加载数据。通过继承 Dataset 类并实现上述方法，用户可以方便地创建自定义的数据集，并与其他 PyTorch 组件（如 DataLoader）配合使用。
复制链接

扫一扫