Keras用tf的Strategy()分布式训练时候报XLA错误

最新推荐文章于 2024-09-15 15:29:29 发布

sanitizer

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量445

点赞数 8

文章标签： keras 人工智能深度学习

本文链接：https://blog.csdn.net/sanitizer/article/details/136607736

版权

文章讲述了在更新Keras和FocalLoss库时遇到的问题，版本冲突导致XLA错误。通过将变量创建移出XLA编译函数并回滚到Keras3.0.5版本，解决了多卡分布式训练中的问题。

摘要由CSDN通过智能技术生成

We failed to lift variable creations out of this tf.function, so this tf.function cannot be run on XLA. A possible workaround is to move variable creation outside of the XLA compiled function.

最早用的pip -U 安装的keras没注意版本，直接可用。

之后装了一个第三方的Focal Loss库，结果自动把tf降了版本，后来再装keras只是==3.0结果就是这个版本不够新，导致了多卡分布式训练报xla错。折腾一下午，恍惚记得最早是3.0.5的keras，随后pip install keras==3.0.5，恢复正常。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sanitizer

关注关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

大语言模型LLM分布式训练：TensorFlow攻略与深度解析（LLM系列04）

North_D的博客

02-26

1401

根据硬件环境和模型特性选择合适的策略。最新研究和技术趋势：追踪最新的分布式训练策略，如联邦学习、半同步SGD等，以及硬件层面的进步，如更快的网络互连和新型AI加速器，从而前瞻LLM分布式训练的未来发展方向。第三方工具集成：进一步探讨如何将其他开源库（如Horovod）与TensorFlow相结合，实现在更复杂的分布式环境下的协同训练，并对比各自的优势与适用场景。API，在保持模型准确性的前提下，通过混合使用FP16和FP32数据类型，大大减少显存占用，显著加快LLM的分布式训练速度。

TensorFlow框架调优与数据预处理技巧

程序员光剑

08-10

1002

Tensorflow是Google推出的开源机器学习框架，能够实现高效的神经网络训练与模型部署。其主要特点包括：简单易用、高度模块化、自动求导、端到端可训练、分布式训练等。TensorFlow框架参数优化数据预处理技巧深度学习框架性能优化方法本文介绍了在深度学习框架调优、数据预处理技巧、深度学习框架性能优化方法、以及常见的算法原理、操作步骤和数学公式等方面，有关 Tensorflow 的各种优化方法。希望大家能够有所收获。

参与评论您还未登录，请先登录后发表或查看评论

Tensorflow2.0进阶学习-Keras 的分布式训练 (九)

赫凯的博客

05-03

901

Keras 的分布式训练引包数据准备模型准备跑起来保存模型引包 tf.distribute.MirroredStrategy的用法 # 导入 TensorFlow 和 TensorFlow 数据集 import tensorflow_datasets as tfds import tensorflow as tf tfds.disable_progress_bar() import os 数据准备下载MNIST在TensorFlow Datasets 加载。将 with_info 设置为 Tr

keras concatenate_Tensorflow笔记：高级封装——Keras

weixin_39597987的博客

11-22

697

前言之前在《Tensorflow笔记：高级封装——tf.Estimator》中介绍了Tensorflow的一种高级封装，本文介绍另一种高级封装Keras。Keras的特点就是两个字——简单，不用花时间和脑子去研究各种细节问题。1. 贯序结构最简单的情况就是贯序模型，就是将网络层一层一层堆叠起来，比如DNN、LeNet等，与之相对的非贯序模型的层和层之间可能存在分叉、合并等复杂结构。下面通过一个Le...

keras开发者文档 11：多GPU和分布式训练

xiaojianzhao的博客

07-15

936

介绍通常，有两种方法可以在多个设备之间分配计算：数据并行性，其中一个模型可以在多个设备或多台机器上复制。它们每个处理不同批次的数据，然后合并结果。此设置存在许多变体，不同的模型副本合并结果的方式不同，它们是否在每个批次中保持同步，或者它们是否松散耦合等等。模型并行性，其中单个模型的不同部分在不同的设备上运行，一起处理一批数据。这最适合具有自然并行架构的模型，例如具有多个分支的模型。本指南重点介绍数据并行性，尤其是同步数据并行性，在该模型中，模型的不同副本在每次处理批次后均保持同步。同步性使模型收敛行

TensorFlow Keras 官方教程 * * * * *

热门推荐

黑暗星球

07-17

1万+

Keras 简介 Keras 是建立和训练深度学习模型的高级 API。它被用于快速原型、高级研究和生产。Keras 具有三个主要优点：用户友好 Keras API 简单、稳定、容易调试。高度模块化 Keras API 可以像搭积木一样来构建深度学习系统。易于扩展可以很容易地实现研究过程中的各种新奇想法。比如：创建新层、新的损失函数、提升state of art 模型的性能等。 ...

官方 | Keras分布式训练教程

小白学视觉

08-17

567

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达总览tf.distribute.Strategy API提供了一种抽象，用于在多个处理单元之间分布...

keras分布式训练

keny-大成的博客

05-28

1292

先来个简单的分布式训练 keras分布式训练 #导入依赖 #from__future__importabsolute_import,division,print_function,unicode_literals # 导入 TensorFlow 和 TensorFlow 数据集 importtensorflow_datasetsastfds importtensorflowastf tfds.disable_progress_bar() importos 如果把第一行屏...

TensorFlow分布式训练：单机多卡训练MirroredStrategy、多机训练MultiWorkerMirroredStrategy

あずにゃん梓喵的博客

08-04

5477

日萌社 人工智能AI：Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战（不定时更新） 4.8 分布式训练当我们拥有大量计算资源时，通过使用合适的分布式策略，我们可以充分利用这些计算资源，从而大幅压缩模型训练的时间。针对不同的使用场景，TensorFlow 在 tf.distribute.Strategy`中为我们提供了若干种分布...

TensorFlow 加速计算实践：GPU、TPU 和分布式计算性能对比

TensorFlow加速计算是指利用专用硬件或分布式计算技术，提升TensorFlow模型训练和推理的性能。它通过并行计算、优化内存访问和减少通信开销等方式，大幅缩短计算时间，提高模型效率。加速计算技术主要包括GPU加速...

Tensorflow_gpu 2.3 + cuda10.2 多核训练踩坑经历

weixin_37651557的博客

11-11

1510

Tensorflow_gpu 2.3 + cuda10.2 多核训练踩坑经历本渣渣实验室电脑的配置是4*2080ti，系统是windows server 2019，环境是： anaconda + tensorflow2.3 +python3.8，在GPU单核训练中运行正常，但尝试了深层网络之后报错： Resource exhausted: OOM when allocating tensor with shape [ , ] 具体维度忘了，就是GPU显存不足。之后开始尝试GPU多核训练。尝试了两种方法：

【GPU与TPU加速】：RNN的并行化与训练加速技术

![【GPU与TPU加速】：RNN的并行化与训练加速技术](https://res.cloudinary.com/practicaldev/image/fetch/s--ZU1bpv0D--/c_imagga_scale,f_auto,fl_progressive,h_420,q_auto,w_1000/...# 1. RNN与GPU/TPU加速概述 ...

keras 分布式_Keras 的分布式训练

weixin_39693193的博客

12-19

721

Note:我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为，所以无法保证它们是最准确的，并且反映了最新的官方英文文档。如果您有改进此翻译的建议，请提交 pull request 到tensorflow/docs GitHub 仓库。要志愿地撰写或者审核译文，请加入docs-zh-cn@tensorflow.org Google Group。概述tf.distribute...

SRT3D: A Sparse Region-Based 3D Object Tracking Approach for the Real World

weixin_45834800的博客

09-13

1049

基于区域的方法在基于模型的单目3D跟踪无纹理物体的复杂场景中变得越来越流行。然而，尽管它们能够实现最先进的结果，大多数方法的计算开销很大，需要大量资源来实时运行。在下文中，我们基于之前的工作，开发了SRT3D，这是一种稀疏的基于区域的3D物体跟踪方法，旨在弥合效率上的差距。我们的方法在所谓的对应线（这些线模型化了物体轮廓位置的概率）上稀疏地考虑图像信息。由此，我们改进了当前的技术，并引入了考虑定义的全局和局部不确定性的平滑阶跃函数。对于所得到的概率公式，提供了详尽的分析。

【AI大模型】Kimi API大模型接口实现

最新发布

qq_25888559的博客

09-15

851

Kimi智能助手在效率（免费榜）排名从2024年1月14日的第436名提升至3月19日的第11名。而尚未上线的GPT-4.5 Turbo上下文窗口指定为25.6万个token，能同时处理约20万个单词，Kimi升级后，长文本能力为其10倍。在2023年10月初次亮相时，该模型的处理能力还仅有约20万汉字。2024年3月18日，月之暗面宣布Kimi智能助手启动200万字无损上下文内测。

生成式人工智能在新加坡的发展现状和地位

wukangjupingbb的博客

09-11

1143

依据国际隐私专业人员协会(IAPP)的相关报告，2020年，上述两机构更新了该模型框架，发布了第二版，并推出了《组织实施和自我评估指南》，帮助组织评估其人工智能治理实践与型框架的匹配程度，还发布了《案例汇编》，展示了组织如何实施负责任的人工智能治理实践。2019年，金融管理局宣布与金融行业合作创建Veritas框架，为金融机构提供可验证的方法，将FEAT原则纳入其人工智能和数据分析驱动的解决方案中。新加坡在人工智能治理方面采取了部门性的方法，即通过各个行业的监管机构来管理人工智能的使用。

车辆检测与分类系统源码分享

xuehaikj的博客

09-13

1434

数据集信息展示在本研究中，我们采用了名为“comexit”的数据集，以支持对YOLOv8模型在车辆检测与分类任务中的改进。该数据集专注于交通工具的识别，特别是公共交通和货运车辆，具有明确的应用背景和实用价值。数据集的类别数量为三，具体包括“bus”（公交车）、“car”（小汽车）和“truck”（卡车）。这三类车辆在城市交通和物流系统中扮演着重要角色，因此，准确的检测与分类对于交通管理、智能交通系统以及自动驾驶技术的发展具有重要意义。

opencv学习：calcHist 函数绘制图像直方图及代码实现

mohanyelong的博客

09-13

1483

opencv学习：calcHist 函数绘制图像直方图及代码实现

keras怎么设置分布式训练

07-27

在Keras中设置分布式训练可以使用TensorFlow的tf.distribute.Strategy API。这个API提供了多种分布式策略，可以根据不同的使用场景选择适合的策略。其中，对于单机多卡训练，可以使用MirroredStrategy。\[1\] 使用MirroredStrategy时，需要在代码中引入tf.distribute.MirroredStrategy，并在创建模型之前实例化该策略。然后，将模型的创建和编译放在strategy.scope()的上下文中，以确保模型在所有可用的GPU上进行复制和训练。\[2\] 下面是一个设置分布式训练的示例代码： ```python import tensorflow as tf from tensorflow import keras # 实例化MirroredStrategy strategy = tf.distribute.MirroredStrategy() # 在strategy.scope()的上下文中创建和编译模型 with strategy.scope(): model = keras.Sequential(\[...\]) # 创建模型 model.compile(\[...\]) # 编译模型 # 加载数据集 train_dataset = mnist_train.map(scale).cache().shuffle(BUFFER_SIZE).batch(BATCH_SIZE) eval_dataset = mnist_test.map(scale).batch(BATCH_SIZE) # 在分布式环境下训练模型 model.fit(train_dataset, epochs=10, validation_data=eval_dataset) ``` 在上述代码中，MirroredStrategy会自动将模型复制到所有可用的GPU上，并在每个GPU上进行训练。这样可以充分利用多个GPU的计算资源，加快模型训练的速度。\[1\] 需要注意的是，分布式训练需要有多个GPU才能发挥作用。如果只有单个GPU，使用分布式训练可能不会带来性能上的提升。另外，分布式训练还需要适当调整batch size和学习率等超参数，以获得最佳的训练效果。 #### 引用[.reference_title] - *1* [【Keras】TensorFlow分布式训练](https://blog.csdn.net/qq_36643449/article/details/124592521)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [Keras 的分布式训练](https://blog.csdn.net/weixin_39693193/article/details/111539493)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [Tensorflow2.0进阶学习-Keras 的分布式训练 (九)](https://blog.csdn.net/u010095372/article/details/124547254)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]