tensorflow编译-cpu指令优化相关选项说明

本文介绍了在TensorFlow编译过程中如何利用CPU的AVX、SSE4.1、SSE4.2和MFA等指令集进行优化。强调了-march=native选项可以自动启用CPU支持的所有优化,包括AVX2和FMA。同时提供了显式设置编译选项的方法,并提到了开启GPU支持的配置。最后,概述了编译完成后安装TensorFlow和TensorFlow Serving的步骤。
摘要由CSDN通过智能技术生成

总结如下:AVX,SSE4.1,SSE4.2,MFA是X86 CPU上不同类型的扩展指令集。其中许多包含处理矩阵或向量操作的优化指令。

注意:并不是SSE4.2是取代SSE4.1的较新版本的指令。SSE 4=SSE4.1(一组47条指令)+SSE4.2(一组7条指令)。

在TensorFlow编译的上下文中,如果您的计算机支持AVX 2和AVX,以及SSE4.1和SSE4.2,则应该为所有人设置这些优化标志。

不要只使用SSE4.2,认为它更新,它应该是SSE4.1的超级种子。

 

对于任何系统来说,最好的选择可能是:(--copt=-march=native默认打开当前cpu支持的所有优化)

bazel build -c opt --copt=-march=native --copt=-mfpmath=both  //tensorflow/tools/pip_package:build_pip_package

 

-march=native启用您的cpu支持的所有选项,因此它将使-mavx512f -mavx2 -mavx -mfma -msse4.2多余。

(同时,-mavx2已启用-mavx and -msse4.2)。此外,如果您使用的CPU不支持这些选项之一(如FMA),则使用-mfma会产生错误的二进制文件。

 

显式指定编译选项:

bazel build -c opt –copt=-msse4.1 –copt=-msse4.2 –copt=-mavx –copt=-mavx2 –copt=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值