第 1 部分:原始数据和数据集
首先我们把尚未经过组织的所有样本称为“原始数据”。
把“数据集”定义为现成可用的数据,即含标签以及基本函数接口(以便于使用原始数据信息)的原始数据。
此处我们使用一种简单的原始数据形式:1 个包含图像和标签的文件夹。
但此方法可扩展至任意性质的样本(可以是图片、录音、视频等)以及包含标签的文件。
标签文件中的每一行都用于描述 1 个样本和相关标签,格式如下:
file_sample_1 label1
file_sample_2 label2
file_sample_3 label3
(...)当能够完成一些基本信息查询(已有样本数量、返回特定编号的样本、预处理每个样本等)时,说明我们已从原始数据集创建了 1 个数据集。
此方法基于面向对象编程以及创建用于数据处理的 “类”。
对于一组简单的图像和标签而言,此方法可能看上去略显杀鸡用牛刀(实际上,此用例通常是通过创建分别用于训练、验证和测试的独立文件夹来进行处理的)。但如果要选择标准交互方法,则此方法将来可复用于多种不同用例,以节省时间。
在 Python 中处理数据
在 Python 中所有一切都是对象:整数、列表、字典都是如此。
构建含标准属性和方法的“数据集”对象的原因多种多样。我认为,代码的精致要求就足以合理化这一选择,但我理解这是品味的问题。可移植性、速度和代码模块化可能是最重要的原因。
在许多示例以及编码书籍中,我发现了面向对象的编码(尤以类为甚)的其它有趣的功能和优势&#x
利用 Python 和 PyTorch 处理面向对象的数据集:1. 原始数据和数据集
最新推荐文章于 2024-07-29 14:37:54 发布