背景:
大数据集训练采用cpu实在是太太太慢了,本人亲测,在cpu上基于tensorflow1.15采用BERT训练10万文本相似度。steps=7500花了三个晚上。有gpu放着不用多少有点,嗯,nc!
云服务器信息
查看服务器内核版本
查看gpu型号
以下操作均基于centos 7,阿里私有云服务器,nvidia tesla T4,截图内版本为已经调试跑通的版本。
安装步骤
1、安装nvidia驱动,英伟达驱动下载地址:https://www.nvidia.cn/Download/index.aspx?lang=cn
驱动安装好后,可以nvidia-smi查看安装情况。
2、安装g++,注意版本,
重点来了
友情提示:如果想要采用本指南完成多本版共存,请完整阅读后再动手下载安装。
坑一:tensorflow版本多样
目前大部分BERT模型基于tensorflow2.0以下开发,起初安装tensorflow时未考虑到,直接装了python3.7.3,tensorflow2.1,torch1.6;导致基于tensorflow的BERT模型不能正常使用。
解决方案:
查看tensorflow官网GPU对应版本信息,https://www.tensorflow.org/install/gpu?hl=zh-cn
因为要用到GPU,必然需要关注cuda版本信息,cudnn版本信息,那么有一个坑来了。
<