背景:
大数据集训练采用cpu实在是太太太慢了,本人亲测,在cpu上基于tensorflow1.15采用BERT训练10万文本相似度。steps=7500花了三个晚上。有gpu放着不用多少有点,嗯,nc!
云服务器信息
查看服务器内核版本

查看gpu型号

以下操作均基于centos 7,阿里私有云服务器,nvidia tesla T4,截图内版本为已经调试跑通的版本。
安装步骤
1、安装nvidia驱动,英伟达驱动下载地址:https://www.nvidia.cn/Download/index.aspx?lang=cn
驱动安装好后,可以nvidia-smi查看安装情况。
2、安装g++,注意版本,

重点来了
友情提示:如果想要采用本指南完成多本版共存,请完整阅读后再动手下载安装。
坑一:tensorflow版本多样
目前大部分BERT模型基于tensorflow2.0以下开发,起初安装tensorflow时未考虑到,直接装了python3.7.3,tensorflow2.1,torch1.6;导致基于tensorflow的BERT模型不能正常使用。
解决方案:
查看tensorflow官网GPU对应版本信息,https://www.tensorflow.org/install/gpu?hl=zh-cn

因为要用到GPU,必然需要关注cuda版本信息,cudnn版本信息,那么有一个坑来了。
<

本文记录了一位开发者在阿里云服务器上配置GPU环境以支持TensorFlow1.15和2.1以及PyTorch1.4/1.6的过程。遇到的主要问题包括CUDA、cuDNN版本与TensorFlow不兼容,以及如何在服务器上实现多版本CUDA共存和切换。解决方案包括使用Anaconda创建虚拟环境,通过清华镜像下载安装包,以及手动管理CUDA版本的软链接。
最低0.47元/天 解锁文章
374

被折叠的 条评论
为什么被折叠?



