深度学习模型训练之日志记录

日落逍遥

已于 2024-06-11 17:08:46 修改

阅读量1k

点赞数 10

分类专栏：深度学习实战文章标签：深度学习人工智能

于 2024-06-11 16:47:01 首次发布

本文链接：https://blog.csdn.net/a533855/article/details/139603005

版权

深度学习实战专栏收录该内容

17 篇文章

订阅专栏

在深度学习模型训练过程中，进行有效的训练日志记录是至关重要的。以下是一些常见的策略和工具来实现这一目标：

1. 使用TensorBoard

TensorBoard是TensorFlow提供的一个可视化工具，用于记录和展示训练过程中的各种指标。

设置TensorBoard：

import tensorflow as tf

# 创建一个日志记录目录
log_dir = "logs/fit/" + datetime.datetime.now().strftime("%Y%m%d-%H%M%S")
tensorboard_callback = tf.keras.callbacks.TensorBoard(log_dir=log_dir, histogram_freq=1)

# 将回调传递给模型的fit方法
model.fit(x_train, y_train, epochs=10, validation_data=(x_val, y_val), callbacks=[tensorboard_callback])

启动TensorBoard：

在终端运行以下命令启动TensorBoard：

tensorboard --logdir=logs/fit

2. 使用Logging库

Python的Logging库提供了一种灵活的记录日志的方法，可以将训练过程中的信息记录到文件中。

设置Logging：

import logging

# 配置Logging
logging.basicConfig(filename='training.log', level=logging.INFO)

# 在训练循环中记录信息
for epoch in range(num_epochs):
    logging.info(f'Epoch {epoch+1}/{num_epochs}')
    # 记录损失和准确率等指标
    logging.info(f'Loss: {loss}, Accuracy: {accuracy}')

import logging

logging.basicConfig(level=logging.INFO,
                    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
                    datefmt='%Y-%m-%d %H:%M:%S')

logger = logging.getLogger('example_logger')

logger.debug('这是一个调试信息')
logger.info('这是一个信息')
logger.warning('这是一个警告')
logger.error('这是一个错误')
logger.critical('这是一个严重错误')

3. 自定义回调函数

如果使用Keras或PyTorch，可以编写自定义回调函数，记录训练过程中的信息。

Keras自定义回调：

class CustomCallback(tf.keras.callbacks.Callback):
    def on_epoch_end(self, epoch, logs=None):
        logging.info(f'Epoch {epoch+1}, Loss: {logs["loss"]}, Accuracy: {logs["accuracy"]}')

# 使用自定义回调
model.fit(x_train, y_train, epochs=10, validation_data=(x_val, y_val), callbacks=[CustomCallback()])

PyTorch自定义回调：

class TrainLogger:
    def __init__(self):
        self.log = []
    
    def log_epoch(self, epoch, loss, accuracy):
        self.log.append((epoch, loss, accuracy))
        logging.info(f'Epoch {epoch}, Loss: {loss}, Accuracy: {accuracy}')

logger = TrainLogger()
for epoch in range(num_epochs):
    # 模型训练代码
    logger.log_epoch(epoch, loss, accuracy)

4. 使用WandB或其他第三方工具

WandB (Weights and Biases) 提供了一套完整的训练日志记录和可视化工具，非常适合跟踪实验和协作。

设置WandB：

import wandb

# 初始化项目
wandb.init(project="my-deep-learning-project")

# 在训练过程中记录指标
for epoch in range(num_epochs):
    # 模型训练代码
    wandb.log({"epoch": epoch, "loss": loss, "accuracy": accuracy})

5. 记录超参数和实验设置

除了记录训练过程中的指标，还应记录超参数和实验设置，以便后续分析和复现实验。

保存配置文件：

# config.yaml
batch_size: 32
learning_rate: 0.001
epochs: 50
model_architecture: "ResNet50"

加载配置文件：

import yaml

with open('config.yaml') as f:
    config = yaml.safe_load(f)

# 使用配置进行训练
model = create_model(config['model_architecture'])