我使用的是AutoDL这个平台,链接:https://www.autodl.com/home
类似的平台还有很多,比如openi,openbayes等等。感觉autodl挺好用的。
我不会说如何创建环境,部署代码之类的,官方的帮助文档https://www.autodl.com/docs/都写的很清楚了。
下面记录以下我部署代码过程中遇到的一些问题。
我要使用的是python3.6 tensorflow-gpu2.6和CUDA11.3
后两个没问题,平台自带。但是平台没有python3.6,更多的是python3.8
平台给出的解决方案是在虚拟环境中使用python3.6
但是按照帮助文档中的方法,创建python3.6环境后,在jupyterlab里面连接不上3.6的环境内核,尝试了好久都无法解决。
于是按照帮助文档中的示例,创建3.7的环境,然后就可以了,连接上了,我不知道为什么会这样。幸好我的代码可以在3.7中运行。
记录一下这个问题,防止后来者在这个问题上钻牛角尖,浪费时间。
还遇到一个问题与tensorboard有关,打开平台自带的tensorboard 没有数据显示,这个问题帮助文档里有解决办法,在 最佳实践 tensorboard 那里。
还有一个问题,我的程序中用到了gym,需要显示渲染窗口,这在服务器中显然是不行的,于是只能暂时将gym的rendering类从代码中去掉(因为我的报错是在这里),但并不影响程序的运行,只是看不到渲染效果了。
如果必须要有渲染画面,那么只能用远程桌面,官方帮助文档里也有提到,在 容器实例,远程桌面那里