请先阅读如下两篇文章,并先读完我的文章再决定你是否要动手安装,因为有很多坑:
- 白嫖百度GPU-TeslaV100笔记(在 AI Studio 上使用 tensorflow 和 pytorch 的方法)-亲测可用
- 免费使用谷歌GPU
这里谷歌是需要那啥的,这里出现那两个关键字文章会发布不了,大家都懂,考虑到大家能否出去的问题,所以选择写百度的文章,这里默认你已经有了百度AI Studio的账户,如果没有自行注册。
1.登陆百度 AI Studio 并按照教程创建新项目
2.创建自己的数据集
这里上传需要以压缩包的形式
3.启动项目并进入控制台
4.下载 Anaconda3/Miniconda3 安装脚本
Miniconda3下载地址:https://repo.continuum.io/miniconda/
5.安装在 ~/work/*conda3 目录
这里work目录是用户的工作目录,重启环境不会消失
把下载的文件上传至aistuidio,终端里进入目录并安装sh文件:bash Miniconda3-4.7.12.1-Linux-x86_64.sh
一直按enter或者yes直到:
将Miniconda装在 ~/work/*conda3 目录下,work目录的话重启是不会消失的:
一顿yes or y操作后Miniconda安装成功:
6.输入命令 source ~/work/*conda3/bin/activate 进入 conda 环境
输入source ~/work/*conda3/bin/activate或者source activate进入conda环境
可以看到这只是初始的base环境,可以创建一个自己的环境,这里需要掌握一点conda命令,下边给出几个可能用到的:
1.conda create -n env_name package_name
env_name是环境的名字,package_name一般来说就写python=3.X就好,例如conda create -n tjw python=3.7
,然后就是再一顿yes or y来等待环境安装成功
2.conda info -e
#显示所有已经创建的环境
2.conda activate env_name
#切换环境
7.安装自己的框架,这里以pytorch为例,选择自己合适的版本
pytorch:https://pytorch.org/get-started/locally/
这里说明一下,你可能会问,我下载个GPU版本的pytorch,是不是需要先安装配置CUDA环境,其实并不需要,因为你选择GPU的环境进来后,CUDA是已经配置好的,所以可以直接安装GPU版的pytorch,这里要查看一下cuda的版本cat /usr/local/cuda/version.txt
等待安装完成即可
8.现在简单的环境有了,需要处理一下最开始配置的数据集,这里需要用命令行解压,需要一点Linux知识,不懂自行百度,下图是参考
unzip mydata.zip -d mydatabak
把/home目录下面的mydata.zip解压到mydatabak目录里面
9.现在环境有了,数据集有了,剩下的就是上传自己的项目代码文件
这里因为很多人项目原先都是在Windows底下,转移到Linux上以后,代码一般是需要略加改动的,例如你的数据集地址要替换成现在Linux下的地址,其他的根据自己的代码情况而定,然后项目中用到的其他库,自行安装
10.关于代码怎么搞比较好
这里啊,最便捷的做法是打包整个代码,然后上传,然后解压一下就直接好了
解压完记得要改数据集的路径啊,如果不熟悉Linux的vi或vim,也是可以直接在notebook里编辑的
10.这里我跑一下我的代码做个截图
最后说一下,这个用起来其实和自己本地的sublime是一模一样的,唯一一点区别就是你可能要会用一点Linux解压命令等,notebook里边是没有解压命令的,总的来说部署还是很简单的,TensorFlow的话道理一样,按这个思路一套走下来就好,再也不用为找不到GPU发愁
另外在补充一点啊,尽量避开管理员权限的操作,因为密码不知道是多少,可以自行百度,这里我还没看,其他的配置什么的都不错,终端也可以多个很方便。
第二次修改
1.首先anconda默认安装也没问题,但是原环境不管是在上边说的work下还是默认路径下,只要重启,环境会自动变到opt目录下,另外创建的新环境用conda info -e可以看到,但是conda info查看配置文件里边只显示默认的两个环境,在本地查看新环境是显示在配置文件里的,然后vi打开这个配置文件里边其实就两行内容,本地打开多了几行channel,因为这里不需要添加镜像源就好。另外不管python库安装在哪个环境下重启后都会消失,这里图我就在下边直接堆叠了
2.这里来说一下自己的解决办法:这里最简单的方法可能就是通过脚本一键安装整个环境了,第一次运行的同时制作好脚本,下次重启进来后,直接而通过脚本来创建命令
3.可能会碰到下图的情况,遇到了就关闭弹窗一直点启动环境就好,直到可以选择GPU环境(前提你要有GPU时间啊,没有的话别费劲,先去搞点时间)这里其实没必要创建新环境了因为不管你库安装到哪个环境下,重启都会消失,那就直接放到base下就好,当然创建环境也很快,2分钟左右吧
3.关于部分项目需要下载模型,但是能模型下载好重启也会丢失。这个到底下不下载要看自己的代码
4.解决办法:把这些模型和模型所在位置记录下来,本地下载然后上传,再复制到应该放到的位置,但是有个问题是之前碰到不能上传200M以上的东西,但是模型可能大于200M,那就AIstudio下载完直接复制到工作目录下,下次再复制回去,这也是最简单的,比上传的方式方便也简单,工作目录简单点说就是复制与work和data文件夹同级的目录下,也就是/home/aistudio下,具体的复制和移动等命令自行百度吧,下载完的文件什么样我从本地截图展示一下吧
6.还有就是,你的AIstudio项目里东西多了同步会有点慢,也有可能失败,失败就一直点重新同步就好了,同步成功后会显示解压,很快,都完成后你可能还是只显示work和data文件夹,上边刷新一下别的内容就出现了
总结:这种方式确实能用百度的GPU跑自己的项目,但是你要懂一点Linux命令,另外前提是你要领取足够的GPU时间,还有就是环境的搭建可以说每次都要搭建一遍,这里的解决办法暂时没想到也没搜到,那么就可以采用脚本的方式来搞,也很快,总的来说还是不错的,但是代码里要做好模型的save()和load()部分,以防万一。用习惯了也还是挺好用的,就是第一次搭建环境制作脚本费点体力。但是通过脚本做环境非常非常快,所以不用担心什么。对了每次重启用脚本创建环境的时候记得删除上次创建的环境文件夹,虽然anconda识别不到这个环境了,但是里边的文件还是都在的,如果每次都不删,你的项目会越来越大,每次同步的时间就会越来越久。
这里在随手写两个命令吧,哪天忘了好回来看看:
1.下边是在指定位置创建环境,创建好后是没有环境名的,如下图所示,启动的话要这么执行:conda activate /home/aistudio/work/env/tjw
conda create -p /home/aistudio/work/env/tjw python=3.7
2.删除环境
conda remove -n tjw --all
如果是想删除没有环境名的上述环境那么就用下边的:
conda -p /home/aistudio/work/env/tjw --all
这里n和p可以理解成name和path
这里对于代码更换很好解决,直接压缩代码文件上传然后解压缩就好,一般代码文件不会超过150M的,但是如果想更换数据集那么就比较麻烦了,一是可以重新建个项目,但是这样anconda又要重装什么的,简单点的办法是现在本地分卷压缩数据集,然后上传分卷,解压分卷就可以了.。