利用 Python 和 PyTorch 处理面向对象的数据集：1. 原始数据和数据集

最新推荐文章于 2024-07-29 14:37:54 发布

BinaryStarXin

最新推荐文章于 2024-07-29 14:37:54 发布

阅读量46

点赞数

分类专栏： FPGA技术汇总分享文章标签： python pytorch 开发语言大数据 fpga开发

本文链接：https://blog.csdn.net/qq_43416206/article/details/134431143

版权

FPGA技术汇总分享专栏收录该内容

257 篇文章 94 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

第 1 部分：原始数据和数据集

首先我们把尚未经过组织的所有样本称为“原始数据”。

把“数据集”定义为现成可用的数据，即含标签以及基本函数接口（以便于使用原始数据信息）的原始数据。

此处我们使用一种简单的原始数据形式：1 个包含图像和标签的文件夹。

但此方法可扩展至任意性质的样本（可以是图片、录音、视频等）以及包含标签的文件。

标签文件中的每一行都用于描述 1 个样本和相关标签，格式如下：

file_sample_1 label1
file_sample_2 label2
file_sample_3 label3
(...)

当能够完成一些基本信息查询（已有样本数量、返回特定编号的样本、预处理每个样本等）时，说明我们已从原始数据集创建了 1 个数据集。

此方法基于面向对象编程以及创建用于数据处理的 “类”。

对于一组简单的图像和标签而言，此方法可能看上去略显杀鸡用牛刀（实际上，此用例通常是通过创建分别用于训练、验证和测试的独立文件夹来进行处理的）。但如果要选择标准交互方法，则此方法将来可复用于多种不同用例，以节省时间。

在 Python 中处理数据

在 Python 中所有一切都是对象：整数、列表、字典都是如此。

构建含标准属性和方法的“数据集”对象的原因多种多样。我认为，代码的精致要求就足以合理化这一选择，但我理解这是品味的问题。可移植性、速度和代码模块化可能是最重要的原因。

在许多示例以及编码书籍中，我发现了面向对象的编码（尤以类为甚）的其它有趣的功能和优势&#x

了解本专栏

超级会员免费看

BinaryStarXin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
利用 Python 和 PyTorch 处理面向对象的数据集：1. 原始数据和数据集

对于一组简单的图像和标签而言，此方法可能看上去略显杀鸡用牛刀（实际上，此用例通常是通过创建分别用于训练、验证和测试的独立文件夹来进行处理的）。该类会返回包含两个元素的列表：在位置 [0] 返回张量，在位置 [1] 返回包含 SampleName 和 SampleLabel 的命名元组。首先，我们需要读取标签文件，然后可对样本在其原始格式（此处为 PIL 图像）以及最终的张量格式应用某些变换。请注意，PIL 图像由范围 0-255 内的整数值组成，而张量则为范围 0-1 内的浮点数矩阵。
复制链接

扫一扫