私有云服务多版本tensorflow-gpu,pytorch-gpu,cuda共存完美避坑指南

本文记录了一位开发者在阿里云服务器上配置GPU环境以支持TensorFlow1.15和2.1以及PyTorch1.4/1.6的过程。遇到的主要问题包括CUDA、cuDNN版本与TensorFlow不兼容,以及如何在服务器上实现多版本CUDA共存和切换。解决方案包括使用Anaconda创建虚拟环境,通过清华镜像下载安装包,以及手动管理CUDA版本的软链接。
摘要由CSDN通过智能技术生成

 

背景:

大数据集训练采用cpu实在是太太太慢了,本人亲测,在cpu上基于tensorflow1.15采用BERT训练10万文本相似度。steps=7500花了三个晚上。有gpu放着不用多少有点,嗯,nc!

云服务器信息

查看服务器内核版本

查看gpu型号

以下操作均基于centos 7,阿里私有云服务器,nvidia tesla T4,截图内版本为已经调试跑通的版本。

安装步骤

1、安装nvidia驱动,英伟达驱动下载地址:https://www.nvidia.cn/Download/index.aspx?lang=cn

驱动安装好后,可以nvidia-smi查看安装情况。

2、安装g++,注意版本

重点来了

友情提示:如果想要采用本指南完成多本版共存,请完整阅读后再动手下载安装。

坑一:tensorflow版本多样

目前大部分BERT模型基于tensorflow2.0以下开发,起初安装tensorflow时未考虑到,直接装了python3.7.3,tensorflow2.1,torch1.6;导致基于tensorflow的BERT模型不能正常使用。

解决方案:

查看tensorflow官网GPU对应版本信息,https://www.tensorflow.org/install/gpu?hl=zh-cn

因为要用到GPU,必然需要关注cuda版本信息,cudnn版本信息,那么有一个坑来了。

<
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值