深度学习中保存Tensor的方式及每种方式特定的应用场景和优缺点

君不见~

已于 2024-03-01 16:06:56 修改

阅读量1.6k

点赞数 26

分类专栏：深度学习基础文章标签： python 深度学习神经网络经验分享

于 2024-03-01 11:46:28 首次发布

本文链接：https://blog.csdn.net/qq_23865133/article/details/136391306

版权

深度学习基础专栏收录该内容

17 篇文章 4 订阅

订阅专栏

本文介绍了在深度学习图像分类中，如何以PyTorch和TensorFlow的.pt和.ckpt格式以及其他文本格式如CSV、HDF5和JSON保存Tensor，以及根据应用场景选择最佳保存方式的建议。作者最终选择原生格式保存张量。

摘要由CSDN通过智能技术生成

现在做深度学习图像分类，我需要将分类头的输入（Tensor）和分类头的输出（Tensor）保存在外部文件当中。在实现的过程中了解了保存Tensor的几种方式

Tensor对象是PyTorch中的多维数组，它们包含的是数值数据。深度学习中，保存tensor的方式有多种，每种方式都有其特定的应用场景和优缺点

1.保存tensor的方式

（1）原生格式（如PyTorch的.pt或TensorFlow的.ckpt）:

优点: 高效地保存和加载模型的状态，包括模型的参数和超参数。这种格式特别适合于模型的保存和迁移

缺点: 不易于人工查看和编辑

应用场景: 主要用于模型的保存和迁移

（2）HDF5（Hierarchical Data Format version 5）:

优点: 支持存储大规模的科学数据，可以保存结构化数据，支持多种数据类型，方便跨平台使用。支持写入额外信息，如元数据

缺点: 文件可能相对较大，需要使用特定的库来读写

应用场景: 用于复杂的数据组织和大规模数据存储

（3）JSON或XML:

优点: 文本格式，便于人类阅读和编辑，可以包含层次结构的数据

缺点: 不适合大规模的数值数据存储，效率低于二进制格式

应用场景: 存储配置文件，小规模的数据交换

（4）CSV文件:

优点: 文本格式，易于查看和编辑，可以使用标准的文本编辑器打开，易于与其他软件（如Excel）兼容

缺点: 不支持多维数据直接保存，可能需要转换；大规模数据的读写效率低

应用场景: 简单的数据存储，小规模的数值数据交换

（5）数据库（如SQLite, PostgreSQL等）:

优点: 支持复杂的查询操作，易于管理大规模数据，支持并发访问

缺点: 需要数据库管理知识，设置和管理相对复杂

应用场景: 大规模数据存储，需要频繁读写操作的应用

2.哪些保存方式最好

选择最佳的保存方式取决于具体的应用场景：

对于模型的保存和迁移，使用原生格式（如.pt或.ckpt）是最佳选择

对于需要保存额外信息和进行复杂数据管理的场景，HDF5或数据库是更好的选择

3.哪些保存方式用得最多？

在深度学习领域，原生格式（如PyTorch的.pt和TensorFlow的.ckpt）是最常用的，因为它们直接支持模型的序列化和反序列化。

HDF5也广泛用于大规模数据集的存储和交换，尤其是在科学计算中

4.哪些保存方式可以写入其他信息，方便打开查看？

HDF5允许存储大量的附加信息，如元数据，并且有工具可以查看HDF5文件的内容，虽然可能需要特定的库或工具。

JSON和XML文件格式也允许存储结构化的数据和元数据，且容易用文本编辑器查看和编辑

5.将Tensor文件保存在CSV文件好吗？

原本我想把张量保存到CSV文件中，但是处理效果不太理想。因为CSV格式并不适合直接保存张量数据，尤其是当涉及到保存完整的多维张量数据时

保存tensor到CSV文件适合简单的、小规模的数值数据交换，尤其是当数据需要被非技术用户（如使用Excel的用户）查看或处理时。

然而，对于大规模数据或需要保存多维数据的情况，CSV不是一个好的选择，因为它不支持直接的多维数据存储（tensor是多维的，当然也可以将tensor转换为numpy数组，看个人需求了），且效率相对较低

总的来说，选择最合适的数据保存方式需要根据您的具体需求，考虑数据的规模、是否需要支持多维数据、是否需要存储额外信息、以及数据的读写效率等因素

PS：最后我选择了将张量以原生格式存储在外部文件中（文件后缀为.pth）

# 保存张量代码-----------------------------------

# 假设input_tensor和output_tensor是要保存的张量
input_tensor = ...  # 分类头的输入张量
output_tensor = ...  # 分类头的输出张量

# 将它们保存到一个字典中
tensors_to_save = {
    'input': input_tensor,
    'output': output_tensor
}

# 使用torch.save保存字典到文件
torch.save(tensors_to_save, 'model_tensors.pth')


# 访问张量代码-----------------------------------

# 加载先前保存的张量
loaded_tensors = torch.load('model_tensors.pth')

# 通过键访问特定的张量
input_tensor_loaded = loaded_tensors['input']
output_tensor_loaded = loaded_tensors['output']

使用PyTorch的torch.save方法将多个张量保存到一个文件中是一种有效、有序的方式，这种保存和提取张量的方法非常方便以后的使用，因为它允许你精确地标识和访问每个张量。不论是进行进一步的数据分析、模型评估还是其他应用，都可以根据需要轻松地提取出特定的张量