几种数据集格式

最新推荐文章于 2025-02-24 19:53:47 发布

哎呀——哪是啥

最新推荐文章于 2025-02-24 19:53:47 发布

阅读量1.5k

点赞数 13

分类专栏： DeepLearning 文章标签：人工智能 python

本文链接：https://blog.csdn.net/m0_73406727/article/details/139543068

版权

DeepLearning 专栏收录该内容

7 篇文章

订阅专栏

在机器学习和计算机视觉领域，有多种数据集格式被广泛使用来存储和交换数据，尤其是图像数据。以下是一些常见的数据集格式：

JSON (JavaScript Object Notation):
- 一种轻量级的数据交换格式，易于人阅读和编写，也易于机器解析和生成。
- 常用于存储图像数据集的元数据、标注信息等。
XML (eXtensible Markup Language):
- 一种标记语言，允许用户自定义标签，用于描述数据的结构和内容。
- 在一些早期的数据集中，如PASCAL VOC，XML被用来存储图像的标注信息。
CSV (Comma-Separated Values):
- 一种简单的文件格式，用于存储表格数据，其中每个字段通常由逗号分隔。
- 常用于存储图像的基本信息，如文件路径、类别标签等。
YAML (YAML Ain't Markup Language):
- 一种用于配置文件的语言，支持复杂的数据结构，易于阅读和编写。
- 有时用于存储数据集的配置信息。
Pickle:
- Python特有的数据序列化格式，可以将Python对象序列化存储到文件中。
- 常用于存储大型数据集或模型参数。
HDF5 (Hierarchical Data Format version 5):
- 一种用于存储和组织大量数据的文件格式。
- 在科学计算和大规模数据集（如KAGGLE竞赛数据集）中常用。
TFRecord (TensorFlow Record):
- TensorFlow提供的一种用于存储大量数据的文件格式。
- 适用于机器学习模型训练，特别是深度学习模型。
LMDB (Lightning Memory-Mapped Database):
- 一种高效的键值存储，常用于存储图像数据集，如Caffe数据集。
图像文件格式:
- 直接存储图像数据的格式，如JPEG, PNG, BMP等。
- 这些格式通常不包含额外的标注信息，需要与上述其他格式结合使用。