0基础学习PyTorch——监控机器学习的可视化工具

最新推荐文章于 2025-03-11 21:41:18 发布

breaksoftware

最新推荐文章于 2025-03-11 21:41:18 发布

阅读量1.1k

点赞数 31

分类专栏： 0基础学习PyTorch 文章标签：机器学习 pytorch 人工智能

本文链接：https://blog.csdn.net/breaksoftware/article/details/142369480

版权

0基础学习PyTorch 专栏收录该内容

4 篇文章

订阅专栏

大纲

主要功能
环境准备
- 可视化
侵入式编码
结果展现和分析
延伸
- 训练损失（Training Loss）
- 准确率（Accuracy）
参考代码

TensorBoard 是一个用于可视化和监控机器学习实验的工具。它是 TensorFlow 的一个组件，但也可以与 PyTorch 等其他深度学习框架一起使用。以下是 TensorBoard 的主要功能和作用：

主要功能

可视化训练过程：
- 损失和精度曲线：实时显示训练和验证的损失、精度等指标的变化情况。
- 学习率调度：可视化学习率的变化情况。
模型图：
- 网络结构：可视化神经网络的结构，包括各层的连接关系和参数数量。
参数分布：
- 权重和偏置：可视化模型参数（如权重和偏置）的分布和变化情况。
图像和音频：
- 输入数据和特征图：可视化输入图像、生成的特征图和其他中间结果。
- 音频数据：可视化音频数据的波形和频谱图。
嵌入向量：
- 高维数据降维：使用 t-SNE 或 PCA 等方法可视化高维嵌入向量。
超参数调优：
- 超参数搜索：可视化不同超参数组合的效果，帮助选择最佳超参数。

环境准备

source env.sh install tensorboard

在这里插入图片描述

可视化

torch-tb-profiler 是一个用于 PyTorch 的性能分析工具，它集成了 TensorBoard，帮助开发者可视化和分析 PyTorch 模型的性能。

source env.sh install torch-tb-profiler

我们的开发环境是vscode。我们需要其一个扩展来可视化展现结果。
在这里插入图片描述

侵入式编码

我们基于《0基础学习PyTorch——时尚分类（Fashion MNIST）训练和推理》的例子，在训练模块增加相关功能来监控训练的变化过程。

引入依赖

from torch.utils.tensorboard import SummaryWriter

创建 TensorBoard 记录器

log_dir = f'logs/{datetime.now().strftime("%Y%m%d-%H%M%S")}'
writer = SummaryWriter(log_dir)

统计训练过程中的数据

        _, predicted = torch.max(outputs, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

outputs是一个包含模型输出的张量，通常是形状为 [batch_size, num_classes] 的二维张量，其中 batch_size 是批次大小，num_classes 是分类的类别数。

torch.max(outputs, 1)返回一个包含两个张量的元组，第一个张量是每行的最大值，第二个张量是每行最大值的索引。

举个例子，假设outputs是如下张量

outputs = torch.tensor([[0.1, 0.2, 0.7],
[0.3, 0.6, 0.1],
[0.8, 0.1, 0.1]])

执行 torch.max(outputs, 1) 将返回：

(values, indices) = torch.max(outputs, 1)
# values: tensor([0.7, 0.6, 0.8])
# indices: tensor([2, 1, 0])

这样predicted就是这批训练对象通过模型计算出的最可能标签下标值的集合。

labels.size(0) 返回 labels 张量的第一个维度的大小，即批次大小 batch_size。total用于统计当前训练的样本总数。

correct用于统计预测值和目标值一致的个数。

后面我们就可以通过total和correct来得出精度。

记录

        # 每100个批次记录一次
        if i % 100 == 99:  
            writer.add_scalar('training loss', running_loss / 100, epoch * len(trainloader) + i)
            writer.add_scalar('accuracy', correct / total, epoch * len(trainloader) + i)