基于前面几篇博客,楼主搭建了基于RTX 3090显卡的深度学习环境,使用专业版pycharm在本地远程连接服务器中搭建的Docker容器,使用效果非常好,解决了在远程服务器中使用pycharm卡顿的现象,最重要的是极大的解放了生产力,各种环境不一致的繁琐配置问题一秒解决!!!最近在学习过程中,遇到了怎么对深度学习训练的过程做可视化的问题,楼主使用Facebook的亲儿子visdom解决了此问题,并将Docker+pycharm+visdom进行了联调,下面分享并记录实现过程:
- 进入使用的Docker容器内下载visdom
docker exec -it {容器ID} bash
pip install visdom
- 下载完成后,打开visdom服务
python -m visdom.server
此时,大概率会出现下面所示的问题,下载长时间无反应(没有遇到请跳过)
Checking for scripts.
Downloading scripts, this may take a little while
解决方案
- 在Github上下载Static文件,上传至服务器的常用位置(建议大家可以使用WinSCP这个软件,可以直接在本地和服务器之间通过拖动互传文件),等待后续处理
- 使用上一步下载的Static文件替换Docker内下载的visdom的同名文件
pip show visdom #在下载visdom的docker内运行,目的是查询visdom的安装位置,为复制做准备
docker cp /home/user/static 56c6:/opt/conda/lib/python3.6/site-packages/visdom # 容器外运行
解释:楼主将下载的static文件放在了/home/user中,所以/home/user/static为来源文件,56c6是容器的ID前四位,可以用来表示容器,/opt/…/visdom为目的文件。上述过程完成了从容器外部向容器内部复制文件的操作,从容器内向容器外复制文件的操作可以将3、4项的位置互换。
- 重新进入容器,打开visdom服务
python -m visdom.server
此时,已经解决了第二步出现的问题,服务成功打开,当时忘了截图,引用一张别人的图作为参考,复制最后一行的地址到服务器的浏览器中, 在pycharm中运行测试代码,浏览器中会就会显示可视化的结果。(文末会给一段Minist数据集的测试代码。)
大家也看到我加粗的地方,现在实现的这个程度只能在服务器远端查看可视化的结果,这对我们来说是很不方便的,为了实现可视化的本地查看,后续我采用MobaXterm的端口转发工具,完成了本地可视化,需要的同学可以查看我的下一篇文章《开启Docker内Visdom的映射端口,使用MobaXterm将其转发到本地实现本地化动态监视》
Minist数据集,pycharm+docker+visdom+pytorch联调测试代码:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
from visdom import Visdom
batch_size=200
learning_rate=0.01
epochs=10
train_loader = torch.utils.data.DataLoader(
datasets.MNIST('../data', train=True, download=True,
transform=transforms.Compose([
transforms.ToTensor(),
#transforms.Normalize((0.1307,), (0.3081,)) 加上这句后visdom的可视化中图片不能正常显示,不知道为啥,有知道的童鞋可以留言告诉我哈
])),
batch_size=batch_size, shuffle=True)
test_loader = torch.utils.data.DataLoader(
datasets.MNIST('../data', train=False, transform=transforms.Compose([
transforms.ToTensor(),
#transforms.Normalize((0.1307,), (0.3081,))
])),
batch_size=batch_size, shuffle=True)
class MLP(nn.Module):
def __init__(self):
super(MLP, self).__init__()
self.model = nn.Sequential(
nn.Linear(784, 200),
nn.LeakyReLU(inplace=True),
nn.Linear(200, 200),
nn.LeakyReLU(inplace=True),
nn.Linear(200, 10),
nn.LeakyReLU(inplace=True),
)
def forward(self, x):
x = self.model(x)
return x
device = torch.device('cuda:0')
net = MLP().to(device)
optimizer = optim.SGD(net.parameters(), lr=learning_rate)
criteon = nn.CrossEntropyLoss().to(device)
viz = Visdom()
viz.line([0.], [0.], win='train_loss', opts=dict(title='train loss'))
viz.line([[0.0, 0.0]], [0.], win='test', opts=dict(title='test loss&acc.',
legend=['loss', 'acc.']))
global_step = 0
for epoch in range(epochs):
for batch_idx, (data, target) in enumerate(train_loader):
data = data.view(-1, 28*28)
data, target = data.to(device), target.cuda()
logits = net(data)
loss = criteon(logits, target)
optimizer.zero_grad()
loss.backward()
# print(w1.grad.norm(), w2.grad.norm())
optimizer.step()
global_step += 1
viz.line([loss.item()], [global_step], win='train_loss', update='append')
if batch_idx % 100 == 0:
print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
epoch, batch_idx * len(data), len(train_loader.dataset),
100. * batch_idx / len(train_loader), loss.item()))
test_loss = 0
correct = 0
for data, target in test_loader:
data = data.view(-1, 28 * 28)
data, target = data.to(device), target.cuda()
logits = net(data)
test_loss += criteon(logits, target).item()
pred = logits.argmax(dim=1)
correct += pred.eq(target).float().sum().item()
viz.line([[test_loss, correct / len(test_loader.dataset)]],
[global_step], win='test', update='append')
viz.images(data.view(-1, 1, 28, 28), win='x')
viz.text(str(pred.detach().cpu().numpy()), win='pred',
opts=dict(title='pred'))
test_loss /= len(test_loader.dataset)
print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
test_loss, correct, len(test_loader.dataset),
100. * correct / len(test_loader.dataset)))