tensorflow使张量转置_[腾讯机智]利用XLA提升TensorFlow训练性能的案例介绍

杨祥子

于 2021-01-05 03:41:39 发布

阅读量242

点赞数

文章标签： tensorflow使张量转置

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42226446/article/details/112502796

版权

本文介绍了在TensorFlow中，使用XLA进行性能优化遇到的问题及解决方案。在FP32下开启XLA训练效果不佳，但在混合精度下能提升94%的训练速度。通过分析timeline，发现DataFormatVecPermute OP导致性能下降。解决办法是在XLA注册中添加对“host”标记DataFormatVecPermute的支持，消除XLA处理冲突，实现性能提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

0. 在开始前，先看一下效果

优化后，在单卡V100上，batch_size=128 测试每秒处理样本数

优化后相比于优化前加速了50%左右；
优化后开启XLA相对于不开启XLA加速了40%左右。

再来回顾一下问题的解决过程~~

1. 问题背景

对在某监督学习场景中，发现在FP32下开启XLA训练呈负优化效果，而在混合精度下开启XLA训练有约94%的加速效果。

在单卡V100上，batch_size=128 测试每秒处理样本数，实验结果如下：

2. 问题调查

对比 FP32+XLA（图1）和混合精度+XLA（图2）的 timeline，发现混合精度+XLA只有2个_XlaRun，而FP32+XLA有8个_XlaRun，且两个_XlaRun中间有一些额外的OP，耗时80

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。