优化你的CPU来做深度学习

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者:Param Popat

编译:ronghuaiyang

导读

对于想学习深度学习的同学们来说,学习资源网上有很多,但是计算资源确很少,而GPU又太贵,怎么办呢?通过简单的设置,将CPU做深度学习的速度提升到3倍以上,大家又可以愉快的学习深度学习了!


640?wx_fmt=png

在过去的几年里,无论是在学术界还是产业界,深度学习的速度都在加快。现在每家公司都在寻找基于人工智能的问题解决方案。这种繁荣有它自己的优点和缺点,但这是另一篇文章,改天再说。机器学习实践者的激增已经渗透到学术界的根源,几乎每个领域的学生都可以通过课程、mooc、书籍、文章,当然还有课程论文,接触到人工智能和ML知识。

然而,硬件资源的可用性阻碍了这种增长。GPU是你能够以一定的速度执行ML任务的最佳设备之一。然而高性能GPU的价格甚至可以到20449美元(NVIDIA Tesla GPU V100 32 gb) 。此外,使用高级GPU的消费级笔记本电脑,使用1050Ti或1080Ti之类的GPU,售价约为2000美元。为了减轻这种痛苦,谷歌、Kaggle、Intel和Nvidia免费提供了基于云的高计算系统,但对空间、计算能力、内存或时间都有限制。但是这些在线服务也有其缺点,包括管理数据(上传/下载)、数据隐私等。这些问题导致了我的文章的主要观点,“为什么不优化我们的cpu来实现深度学习任务的加速?”

性能的提升

对于下面提到的各种实验,我会展示我观察到的时间和利用率的提高。

  1. 10层深度CNN用于CIFAR-100图像分类。

  2. 3层深度LSTM进行IMDB情绪分析。

  3. 6层深度密集神经网络用于MNIST图像分类。

  4. 9层全卷积MNIST自动编码器。

这些任务用Keras写代码,使用tensorflow后端,数据集和代码和和可执行库放在一个盘里。所使用的是SSD硬盘。

我们将考虑以下六种优化组合。

  1. 英特尔(R) Core (TM) i7。

  2. Intel(R) Xeon(R) CPU E3-1535M v6。

  3. 英特尔(R)核心(TM) i7与英特尔Python(英特尔i7*)。

  4. Intel(R) Xeon(R) CPU E3-1535M v6采用Intel Python (Intel Xeon*)。

  5. Intel(R) Core (TM) i7与Intel Python和处理器线程优化(Intel i7(O))。

  6. Intel(R) Xeon(R) CPU E3-1535M v6采用Intel Python和处理器线程优化(Intel Xeon(O))。

对于每个任务,epochs的数量固定在50。从下图中我们可以看到,对于一个Intel(R) Core (TM) i7-7700HQ CPU @ 2.80GHz CPU, epoch的平均时间接近4.67秒,经过适当的优化后下降到1.48秒,即提高3.2倍。对于一个Intel(R) Xeon(R) CPU E3-1535M v6 @ 3.10GHz CPU,epoch的平均时间接近2.21秒,经过适当的优化后下降到0.64秒,提高了3.45倍。

640?wx_fmt=png

每个epoch的平均时间

优化不仅仅是在时间上,优化的分布也优化了CPU的利用率,这最终导致更好的热量管理,你的笔记本电脑不会像以前训练深度神经网络时那么热。

640?wx_fmt=png

使用率

我们可以看到,在不进行任何优化的情况下,训练时CPU利用率最高达到100%,从而减慢了所有其他进程并使系统升温。然而,通过适当的优化,i7和Xeon的利用率分别下降到70%和65%,但是在运行时间上却减少了。

这两个指标可以用以下相关术语进行总结。

640?wx_fmt=png

在上面的图中,越低的值越好,即以Intel Xeon为基准进行所有优化,而一个Intel Core i7处理器在优化后,每个epoch花费的时间几乎是Xeon的两倍。上面的图表清楚地显示了从训练神经网络的时间和CPU的使用情况来看,英特尔Python优化是前途光明的。

设置Intel的Python发行版

640?wx_fmt=png

Intel Software提供了一个关于如何设置此选项的详尽的资源列表,但是我们通常可能会遇到一些问题。更多关于发行版的详细信息看这里:(https://software.intel.com/en-us/distribution-for-python)。你可以选择安装的类型,即本地pip或conda。我更喜欢conda,因为它为我节省了大量的麻烦,而且我可以专注于ML,而不是解决我的库的兼容性问题。

1) 下载安装Anaconda

你可以从这里:(https://www.anaconda.com/distribution/)下载Anaconda。他们的网站列出了在windows、ubuntu和macOS环境中安装Python的所有步骤,并且很容易做。

2) 在你的Anaconda发布中设置Intel python

这一步通常比较棘手。最好为Intel发行版创建一个虚拟环境,这样你就可以随时在一个地方添加/更改优化后的库。让我们创建一个名为“intel.”的虚拟环境。

conda create -n intel -c intel intelpython3_full

这里-c表示通道,因此我们不将Intel添加为通道,而是通过-c调用该通道。在这里,intelpython3_full将自动从Intel发行版获取必要的库,并将它们安装到你的虚拟环境中。这个命令将安装以下库。

The following NEW packages will be INSTALLED:	
asn1crypto         intel/win-64::asn1crypto-0.24.0-py36_3	
bzip2              intel/win-64::bzip2-1.0.6-vc14_17	
certifi            intel/win-64::certifi-2018.1.18-py36_2	
cffi               intel/win-64::cffi-1.11.5-py36_3	
chardet            intel/win-64::chardet-3.0.4-py36_3	
cryptography       intel/win-64::cryptography-2.3-py36_1	
cycler             intel/win-64::cycler-0.10.0-py36_7	
cython             intel/win-64::cython-0.29.3-py36_1	
daal               intel/win-64::daal-2019.3-intel_203	
daal4py            intel/win-64::daal4py-2019.3-py36h7b7c402_6	
freetype           intel/win-64::freetype-2.9-vc14_3	
funcsigs           intel/win-64::funcsigs-1.0.2-py36_7	
icc_rt             intel/win-64::icc_rt-2019.3-intel_203	
idna               intel/win-64::idna-2.6-py36_3	
impi_rt            intel/win-64::impi_rt-2019.3-intel_203	
intel-openmp       intel/win-64::intel-openmp-2019.3-intel_203	
intelpython        intel/win-64::intelpython-2019.3-0	
intelpython3_core  intel/win-64::intelpython3_core-2019.3-0	
intelpython3_full  intel/win-64::intelpython3_full-2019.3-0	
kiwisolver         intel/win-64::kiwisolver-1.0.1-py36_2	
libpng             intel/win-64::libpng-1.6.36-vc14_2	
llvmlite           intel/win-64::llvmlite-0.27.1-py36_0	
matplotlib         intel/win-64::matplotlib-3.0.1-py36_1	
menuinst           intel/win-64::menuinst-1.4.1-py36_6	
mkl                intel/win-64::mkl-2019.3-intel_203	
mkl-service        intel/win-64::mkl-service-1.0.0-py36_7	
mkl_fft            intel/win-64::mkl_fft-1.0.11-py36h7b7c402_0	
mkl_random         intel/win-64::mkl_random-1.0.2-py36h7b7c402_4	
mpi4py             intel/win-64::mpi4py-3.0.0-py36_3	
numba              intel/win-64::numba-0.42.1-np116py36_0	
numexpr            intel/win-64::numexpr-2.6.8-py36_2	
numpy              intel/win-64::numpy-1.16.1-py36h7b7c402_3	
numpy-base         intel/win-64::numpy-base-1.16.1-py36_3	
openssl            intel/win-64::openssl-1.0.2r-vc14_0	
pandas             intel/win-64::pandas-0.24.1-py36_3	
pip                intel/win-64::pip-10.0.1-py36_0	
pycosat            intel/win-64::pycosat-0.6.3-py36_3	
pycparser          intel/win-64::pycparser-2.18-py36_2	
pyopenssl          intel/win-64::pyopenssl-17.5.0-py36_2	
pyparsing          intel/win-64::pyparsing-2.2.0-py36_2	
pysocks            intel/win-64::pysocks-1.6.7-py36_1	
python             intel/win-64::python-3.6.8-6	
python-dateutil    intel/win-64::python-dateutil-2.6.0-py36_12	
pytz               intel/win-64::pytz-2018.4-py36_3	
pyyaml             intel/win-64::pyyaml-4.1-py36_3	
requests           intel/win-64::requests-2.20.1-py36_1	
ruamel_yaml        intel/win-64::ruamel_yaml-0.11.14-py36_4	
scikit-learn       intel/win-64::scikit-learn-0.20.2-py36h7b7c402_2	
scipy              intel/win-64::scipy-1.2.0-py36_3	
setuptools         intel/win-64::setuptools-39.0.1-py36_0	
six                intel/win-64::six-1.11.0-py36_3	
sqlite             intel/win-64::sqlite-3.27.2-vc14_2	
tbb                intel/win-64::tbb-2019.4-vc14_intel_203	
tbb4py             intel/win-64::tbb4py-2019.4-py36_intel_0	
tcl                intel/win-64::tcl-8.6.4-vc14_22	
tk                 intel/win-64::tk-8.6.4-vc14_28	
urllib3            intel/win-64::urllib3-1.24.1-py36_2	
vc                 intel/win-64::vc-14.0-2	
vs2015_runtime     intel/win-64::vs2015_runtime-14.0.25420-intel_2	
wheel              intel/win-64::wheel-0.31.0-py36_3	
win_inet_pton      intel/win-64::win_inet_pton-1.0.1-py36_4	
wincertstore       intel/win-64::wincertstore-0.2-py36_3	
xz                 intel/win-64::xz-5.2.3-vc14_2	
zlib               intel/win-64::zlib-1.2.11-vc14h21ff451_5

你可以看到,对于每个库,都以“Intel/…”开头,这表示正在从Intel的发行渠道下载该库。一旦你同意安装这些库,就会开始下载和安装它们。

这一步是会出现一个问题。有时,这些库不会被下载,列表会往下走,或者出现SSL错误,然后命令退出。这个问题甚至可能被延迟,也就是说,现在所有东西都将被下载和安装,但是稍后如果你想添加任何新的库,提示符将抛出SSL错误。有一个方式可以简单的修复这个问题,为英特尔创建虚拟环境之前需要完成。

在你的shell或命令提示符中,通过下面的命令关闭anaconda的默认SSL验证

conda config --set ssl_verify false

一旦关闭了SLL验证,你可以重复步骤2,删除之前创建的环境并重新启动。

3) 设置TensorFlow

640?wx_fmt=png

恭喜你!!现在,你已经在电脑中设置了Intel的python发行版。现在是进入ML pipeline的时候了。

英特尔已经通过所有的发行版为tensorflow提供了优化,设置起来非常顺利。(https://software.intel.com/en-us/ai/frameworks/tensorflow)。让我们看看如何为CPU安装优化过的tensorflow。英特尔软件提供了一个优化的数学内核库(mkl),优化数学操作,并为用户提供所需的加速。因此,我们将按如下方式安装tensorflow-mkl。

conda install tensorflow-mkl

或者使用pip,可以将其设置为如下所示。

pip install intel-tensorflow

Tensorflow现在已经启动并在你的系统中运行,并进行了必要的优化。如果你是Keras的粉丝,你可以用一个简单的命令来设置它:-

conda install keras -c intel
4) 设置Jupyter

由于我们创建了一个新的虚拟环境,但它不是spyder或jupyter notebooks的默认环境。然而,设置这些是很简单的。只要一行命令,我们就能做到。

conda install jupyter -c intel
5) 激活环境开始做实验

既然我们已经设置好了所有的东西,现在是动手的时候了,我们开始在优化的CPU系统上编写代码并尝试各种ML和DL方法。首先,在执行任何代码之前,确保使用了正确的环境。在使用安装在虚拟环境中的库之前,需要激活虚拟环境。这个激活步骤是一个永久的过程,并且是毫不费力的。在anaconda提示符中编写以下命令,就可以开始了。

conda activate intel

要对环境进行全面检查,在激活环境后,在命令提示符/shell中键入以下命令。

python

输入python后按enter,命令提示符中应该出现以下文本。确保显示的是“Intel Corporation”,并显示“Intel(R) Distribution for Python is brought to you by Intel Corporation.”。这些验证了英特尔Python发行版的正确安装。

Python 3.6.8 |Intel Corporation| (default, Feb 27 2019, 19:55:17) [MSC v.1900 64 bit (AMD64)] on win32	
Type "help", "copyright", "credits" or "license" for more information.	
Intel(R) Distribution for Python is brought to you by Intel Corporation.	
Please check out: https://software.intel.com/en-us/python-distribution

现在,你可以使用命令行进行试验,或者在其他地方编写脚本来运行。

(intel) C:\Users\User>python script.py

通过以下步骤1到4,使你的系统具备上面的性能基准图中提到的Intel xyz级别。这些仍然不是基于多处理器的线程优化。我将在下面讨论如何进一步优化你的多核CPU。

多核优化

要为你的多核系统添加进一步的优化,你可以将以下代码行添加到.py文件中,它将相应地执行脚本。这里NUMPARALLELEXEC_UNITS表示内核的数量,我有一个四核i7,因此这个数字是4。

from keras import backend as K	
import tensorflow as tf	
NUM_PARALLEL_EXEC_UNITS = 4	
config = tf.ConfigProto(intra_op_parallelism_threads=NUM_PARALLEL_EXEC_UNITS, inter_op_parallelism_threads=2,	
                       allow_soft_placement=True, device_count={'CPU': NUM_PARALLEL_EXEC_UNITS})	
session = tf.Session(config=config)	
K.set_session(session)	
os.environ["OMP_NUM_THREADS"] = "4"	
os.environ["KMP_BLOCKTIME"] = "30"	
os.environ["KMP_SETTINGS"] = "1"	
os.environ["KMP_AFFINITY"] = "granularity=fine,verbose,compact,1,0"

如果你不喜欢使用Keras而更喜欢使用tensorflow,那么脚本几乎保持不变,只需删除以下两行。

from keras import backend as K	
	
K.set_session(session)

在你的代码中添加了这些行之后,应该可以达到上面性能图表中的Intel xyz(O)条目相当的性能。

如果你的系统中有GPU,并且它与当前库集冲突,或者抛出一个cudnn错误,那么你可以在代码中添加以下行来禁用GPU。

os.environ["CUDA_VISIBLE_DEVICES"] = "-1"

总结

现在你已经有了一个用于测试和开发机器学习项目和思想的优化pipeline。这一渠道为学生提供了大量的机会,让他们参与到学术研究中,用他们所拥有的资源继续他们的工作。这条pipeline还将防止从业者的私有数据的隐私泄露问题。

同样值得注意的是,通过适当的微调,一个人可以在他们的工作流程中获得3.45倍的加速,这意味着如果你正在试验你的想法,你现在可以比以前快三倍。

640?wx_fmt=png— END—

英文原文:https://towardsdatascience.com/optimize-your-cpu-for-deep-learning-424a199d7a87

640?wx_fmt=jpeg

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧640?wx_fmt=gif

  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值