PyTorch Lightning 与 TensorBoard 问题解决文档 🛠️
简介
本文档旨在总结在使用 PyTorch Lightning 进行深度学习模型训练和使用 TensorBoard 进行训练过程可视化时遇到的常见问题及其解决方案。
问题及解决方案
问题 1: 远程训练与本地可视化
描述: 在远程服务器上使用 PyTorch Lightning 和 TensorBoard 进行训练,并希望在本地机器上实时查看训练进度。
解决办法:
使用 SSH 端口转发将远程服务器上的 TensorBoard 端口转发到本地机器。在远程服务器上运行训练脚本,并确保配置了 TensorBoardLogger
。使用命令 ssh -N -L 本地端口:localhost:远程端口 远程用户名@远程服务器地址
在本地设置端口转发。
问题 2: TensorBoard 无显示数据
描述: TensorBoard 的页面加载后,没有显示任何数据,仅显示空白的坐标图。同时,远程终端报错 TypeError: MessageToJson() got an unexpected keyword argument 'including_default_value_fields'
。
解决办法:
此问题通常由于 TensorBoard 依赖的 Protobuf 版本不兼容导致。解