作者:吴茂贵 郁明敏 杨本法 李涛 张粤磊
来源:大数据DT(ID:bigdatadt)
导读:本文主要介绍PyTorch的一些基础且常用的概念和模块,以及:
为何选择PyTorch。
PyTorch环境的安装与配置。
PyTorch是Facebook团队于2017年1月发布的一个深度学习框架,虽然晚于TensorFlow、Keras等框架,但自发布之日起,其关注度就在不断上升,目前在GitHub上的热度已超过Theano、Caffe、MXNet等框架。
PyTorch 1.0版本推出后,增加了许多新的功能,对原有内容进行了优化,并整合了Caffe2,使用更方便,大大增强了生产性,所以其热度也迅速上升。
PyTorch采用Python语言接口来实现编程,非常容易上手。它就像带GPU的Numpy,与Python一样都属于动态框架。
PyTorch继承了Torch灵活、动态的编程环境和用户友好的界面,支持以快速和灵活的方式构建动态神经网络,还允许在训练过程中快速更改代码而不妨碍其性能,支持动态图形等尖端AI模型的能力,是快速实验的理想选择。
01 为何选择PyTorch?
PyTorch是一个建立在Torch库之上的Python包,旨在加速深度学习应用。它提供一种类似Numpy的抽象方法来表征张量(或多维数组),可以利用GPU来加速训练。由于 PyTorch 采用了动态计算图(Dynamic Computational Graph)结构,且基于tape的Autograd系统的深度神经网络。
其他很多框架,比如TensorFlow(TensorFlow2.0也加入了动态网络的支持)、Caffe、CNTK、Theano等,采用静态计算图。
使用PyTorch,通过一种称为Reverse-mode auto-differentiation(反向模式自动微分)的技术,可以零延迟或零成本地任意改变你的网络的行为。
Torch是PyTorch中的一个重要包,它包含了多维张量的数据结构以及基于其上的多种数学操作。
自2015年谷歌开源TensorFlow以来,深度学习框架之争越来越激烈,全球多个看重AI研究与应用的科技巨头均在加大这方面的投入。PyTorch从2017年年初发布以来,可谓是异军突起,短时间内取得了一系列成果,成为明星框架。
最近PyTorch进行了一些较大的版本更新,0.4版本把Varable与Tensor进行了合并,并增加了对Windows的支持。1.0版本增加了即时编译(Justintimecompilation,JIT,弥补了研究与生产的部署的差距)、更快的分布式、C++扩展等。
目前,PyTorch 1.0 稳定版已发布,该版本从Caffe2和ONNX移植了模块化和产品导向的功能,并将这些功能和PyTorch已有的灵活、专注研究的特性相结合。PyTorch 1.0中的技术已经让很多Facebook的产品和服务变得更强大,包括每天执行60亿次的文本翻译。
PyTorch由4个主要的包组成:
torch:类似于Numpy的通用数组库,可将张量类型转换为torch.cuda.TensorFloat,并在GPU上进行计算。
torch.autograd:用于构建计算图形并自动获取梯度的包。
torch.nn:具有共享层和损失函数的神经网络库。
torch.optim:具有通用优化算法(如SGD、Adam等)的优化包。
02 安装配置
安装PyTorch时,请核查当前环境是否有GPU,如果没有,则安装CPU版;如果有,则安装GPU版本的。
1. 安装CPU版PyTorch
安装CPU版的PyTorch比较简单,由于PyTorch是基于Python开发,所以如果没有安装Python需要先安装,然后再安装PyTorch。具体步骤如下:
1)下载Python:安装Python建议采用Anaconda方式安装,先从Anaconda的官网(https://www.anaconda.com/distribution),下载Anaconda3的最新版本,如图2-1所示,如Anaconda3-5.0.1-Linux-x86_64.sh,建议使用3系列,3系列代表未来发展。另外,根据下载时自己的环境,选择操作系统等。
▲图2-1 下载Anaconda界面
2)在命令行执行如下命令,开始安装Python:
Anaconda3-2019.03-Linux-x86_64.sh
3)接下来根据安装提示,直接按回车即可。其间会提示选择安装路径,如果没有特殊要求,可以按回车使用默认路径(~/ anaconda3),然后就开始安装。
4)安装完成后,程序会提示是否把Anaconda3的binary路径加入当前用户的.bashrc配置文件中,建议添加。添加以后,就可以使用Python、IPython命令时自动使用Anaconda3的Python环境。
5)安装PyTorch:
登录PyTorch官网(PyTorch.org),登录后,可看到图2-2所示界面,然后选择对应项。
▲图2-2 PyTorch安装界面
把第⑥项内容复制到命令行,执行即可进行安装。
conda install PyTorch-cpu torchvision-cpu -c PyTorch
6)验证安装是否成功:
启动Python,然后执行如下命令,如果没有报错,说明安装成功!
2. 安装GPU版PyTorch
安装GPU版本的PyTorch稍微复杂一点,除需要安装Python、PyTorch外,还需要安装GPU的驱动(如英伟达的NVIDIA)及CUDA、cuDNN计算框架,主要步骤如下:
1)安装NVIDIA驱动。
下载地址:
https://www.nvidia.cn/Download/index.aspx?lang=cn
登录可以看到界面如图2-3所示。
▲图2-3 NVIDIA的下载界面
选择产品类型、操作系统等,然后点击“搜索”按钮,进入下载界面。
安装完成后,在命令行输入“nvidia-smi”,用来显示GPU卡的基本信息,如果出现图2-4所示界面,则说明安装成功。如果报错,则说明安装失败,请搜索其他安装驱动的方法。
▲图2-4 显示GPU卡的基本信息
2)安装CUDA。
CUDA(Compute Unified Device Architecture),是英伟达公司推出的一种基于新的并行编程模型和指令集架构的通用计算架构,它能利用英伟达GPU的并行计算引擎,比CPU更高效地解决许多复杂计算任务。安装CUDA Driver时,其版本需与NVIDIA GPU Driver的版本一致,这样CUDA才能找到显卡。
3)安装cuDNN。
NVIDIA cuDNN是用于深度神经网络的GPU加速库。注册NVIDIA并下载cuDNN包,获取地址为
https://developer.nvidia.com/rdp/cudnn-archive
4)安装Python及PyTorch。
这步与本书2.2.1节安装CPU版PyTorch相同,只是选择CUDA时,不是None,而是对应CUDA的版本号,如图2-5所示。
▲图2-5 安装GPU版PyTorch
5)验证。
验证PyTorch安装是否成功与本书2.2.1节一样,如果想进一步验证PyTorch是否在使用GPU,可以运行下面这一段测试GPU的程序test_gpu.py,如果成功的话,可以看到如图2-6的效果。
#cat test_gpu.py
import torch
if __name__ == '__main__':
#测试 CUDA
print("Support CUDA ?: ", torch.cuda.is_available())
x = torch.tensor([10.0])
x = x.cuda()
print(x)
y = torch.randn(2, 3)
y = y.cuda()
print(y)
z = x + y
print(z)
# 测试 CUDNN
from torch.backends import cudnn
print("Support cudnn ?: ",cudnn.is_acceptable(x))
在命令行运行以下脚本:
python test_gpu.py
如果可以看到如图2-6或图2-7所示的结果,则说明GPU版PyTorch安装成功!
▲图2-6 运行test_gpu.py的结果
在命令行运行:nvidia-smi,可以看到如图2-7所示的界面。
▲图2-7 含GPU进程的显卡信息
03 Jupyter Notebook环境配置
Jupyter Notebook是目前Python比较流行的开发、调试环境,此前被称为IPython notebook。它以网页的形式打开,可以在网页页面中直接编写和运行代码,代码的运行结果(包括图形)也会直接显示,如在编程过程中添加注释、目录、图像或公式等内容。Jupyter Notebook有以下特点:
编程时具有语法高亮、缩进、Tab补全的功能。
可直接通过浏览器运行代码,同时在代码块下方展示运行结果。
以富媒体格式展示计算结果。富媒体格式包括:HTML、LaTeX、PNG、SVG等。
对代码编写说明文档或语句时,支持Markdown语法。
支持使用LaTeX编写数学性说明。
接下来介绍配置Jupyter Notebook的主要步骤。
1)生成配置文件。
jupyter notebook --generate-config
执行上述代码,将在当前用户目录下生成文件:.jupyter/jupyter_notebook_config.py
2)生成当前用户登录Jupyter密码。
打开Ipython,创建一个密文密码。
In [1]:
from notebook.auth import passwd
In [2]:
passwd()
Enter password:
Verify password:
3)修改配置文件。
vim ~/.jupyter/jupyter_notebook_config.py
进行如下修改:
c.NotebookApp.ip='*' # 就是设置所有ip皆可访问
c.NotebookApp.password = u'sha:ce...刚才复制的那个密文'
c.NotebookApp.open_browser = False # 禁止自动打开浏览器
c.NotebookApp.port =8888 #这是缺省端口,也可指定其他端口
4)启动Jupyter Notebook。
#后台启动jupyter:不记日志:
nohup jupyter notebook >/dev/null 2>&1 &
在浏览器上,输入IP:port,即可看到与图2-8类似的界面。
▲图2-8 Jupyter Notebook网页界面
接下来就可以在浏览器进行开发调试PyTorch、Python等任务了。
关于作者:吴茂贵,资深大数据和人工智能技术专家,就职于中国外汇交易中心,在BI、数据挖掘与分析、数据仓库、机器学习等领域工作超过20年。在基于Spark、TensorFlow、PyTorch、Keras等的机器学习和深度学习方面有大量的工程实践实践。
郁明敏,资深商业分析师,从事互联网金融算法研究工作,专注于大数据、机器学习以及数据可视化的相关领域,擅长 Python、Hadoop、Spark 等技术,拥有丰富的实战经验。
杨本法,高级算法工程师,在流程优化、数据分析、数据挖掘等领域有10余年实战经验,熟悉Hadoop和Spark技术栈。有大量工程实践经验。
李涛,资深AI技术工程师,对PyTorch、Caffe、TensorFlow等深度学习框架以及计算机视觉技术有深刻的理解和丰富的实践经验。
张粤磊,资深大数据技术专家,飞谷云创始人,有10余年一线数据数据挖掘与分析实战经验。先后在咨询、金融、互联网行业担任大数据平台的技术负责人或架构师。
本文摘编自《Python深度学习:基于PyTorch》,经出版方授权发布。
延伸阅读
《Python深度学习:基于PyTorch》
点击上图了解及购买
推荐语:本书是多位人工智能技术专家和大数据技术专家多年工作经验的结晶,从工具使用、技术原理、算法设计、案例实现等多个维度对深度学习进行了系统的讲解。内容选择上,广泛涉猎、重点突出、注重实战;内容安排上,实例切入、由浅入深、循序渐进;表达形式上,深度抽象、化繁为简、用图说话。