一、介绍:
Tensorboard 是 TensorFlow 的一个附加工具,可以记录训练过程的数字、图像等内容,以方便研究人员观察神经网络训练过程。可是对于 PyTorch 等其他神经网络训练框架并没有功能像 Tensorboard 一样全面的类似工具,一些已有的工具功能有限或使用起来比较困难 (tensorboard_logger, visdom等) 。TensorboardX 这个工具使得 TensorFlow 外的其他神经网络框架也可以使用到 Tensorboard 的便捷功能。注:pytorch 1.1.0以后原生支持tensorboard,不需要安装tensorboardX
二、环境准备:
这个过程操作得比较繁琐,经历了以下几个步骤:
1.模型是在docker中运行的,已经装好tensorboardx和pytorch等,但docker内无图形界面,无法使用google-chrome(tensorboardx给出一个链接,要在默认浏览器中查看,网上推荐chrome,注意tensorboard和chrome必须在同一个环境中使用 !)
2.尝试在docker所在服务器上安装chrome,成功,方法是下载chrome安装文件(google-chrome-stable_current_amd64.deb)格式到本地,再安装,如:
sudo dpkg -i google-chrome-stable_current_amd64.deb
打开chrome命令:/usr/bin/google-chrome
3.服务器上只有python2.7环境(运行tensorboardX会报错),配套安装了python3.7、tensorflow、tensorboardX。安装python:https://blog.csdn.net/m0_37814112/article/details/103039263,其余两个用pip安装即可(如遇不行要有耐心多试几次)注意要把python3.7的路径映射到默认python路径
4.安装成功后,输入命令tensorboard --logdir yourpath,yourpath是存放tensorboard输出文件的目录,会是一堆events文件,成功的话显示一个网址:http://localhost:6006/,IP和端口号都可以设置,如果出现乱码肯定是不成功的。
这个过程应该也可以在windows的chrome上映射到服务器环境中操作,不过没有尝试。
三、pytorch中具体使用方式:
这里主要用来保存训练和验证的loss曲线图、每一步输入输出的图片等。
1.导入summarywriter包
from tensorboardX import SummaryWriter
pytorch1.1.0以上:
from torch.utils.TensorBoard import SummaryWriter
2.分train和val两种模式,并设置地址(多卡训练设置为第0号cuda输出)
self.writers = {}
if self.rank == 0:
for mode in ["train", "val"]:
self.writers[mode] = SummaryWriter(os.path.join(self.log_path, mode))
3.设置每一定数量的batch结束时进行保存loss(保存其他的也可以),同时记录step
writer = self.writers[mode]
for l, v in losses.items():
writer.add_scalar("{}".format(l), v, self.step)
需要保存图片的话,按需保存即可
writer.add_image(
"color_{}_{}/{}".format(frame_id, s, j),
inputs[("color", frame_id, s)][j].data, self.step)
4.训练结束后要关闭summarywriter:
if len(self.writers) != 0:
self.writers['train'].close()
self.writers['val'].close()
四、效果展示:(可分别展示train和val可视化效果)
loss可视化:鼠标移动可以看到每个step具体的数据,也可以看到保存的图片和其他信息