私有云服务多版本tensorflow-gpu，pytorch-gpu，cuda共存完美避坑指南

最新推荐文章于 2023-12-06 17:05:39 发布

Luna's卜卜星

最新推荐文章于 2023-12-06 17:05:39 发布

阅读量491

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013363120/article/details/109737691

版权

本文记录了一位开发者在阿里云服务器上配置GPU环境以支持TensorFlow1.15和2.1以及PyTorch1.4/1.6的过程。遇到的主要问题包括CUDA、cuDNN版本与TensorFlow不兼容，以及如何在服务器上实现多版本CUDA共存和切换。解决方案包括使用Anaconda创建虚拟环境，通过清华镜像下载安装包，以及手动管理CUDA版本的软链接。

摘要由CSDN通过智能技术生成

背景：

大数据集训练采用cpu实在是太太太慢了，本人亲测，在cpu上基于tensorflow1.15采用BERT训练10万文本相似度。steps=7500花了三个晚上。有gpu放着不用多少有点，嗯，nc！

云服务器信息

查看服务器内核版本

查看gpu型号

以下操作均基于centos 7，阿里私有云服务器，nvidia tesla T4，截图内版本为已经调试跑通的版本。

安装步骤

1、安装nvidia驱动，英伟达驱动下载地址：https://www.nvidia.cn/Download/index.aspx?lang=cn

驱动安装好后，可以nvidia-smi查看安装情况。

2、安装g++，注意版本，

重点来了

友情提示：如果想要采用本指南完成多本版共存，请完整阅读后再动手下载安装。

坑一：tensorflow版本多样

目前大部分BERT模型基于tensorflow2.0以下开发，起初安装tensorflow时未考虑到，直接装了python3.7.3，tensorflow2.1，torch1.6；导致基于tensorflow的BERT模型不能正常使用。

解决方案：

查看tensorflow官网GPU对应版本信息，https://www.tensorflow.org/install/gpu?hl=zh-cn

因为要用到GPU，必然需要关注cuda版本信息，cudnn版本信息，那么有一个坑来了。

<

最低0.47元/天解锁文章

Luna's卜卜星

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。