TensorFlow惊现大bug？网友：这是逼着我们用PyTorch啊

最新推荐文章于 2022-12-09 20:51:25 发布

ctrigger

最新推荐文章于 2022-12-09 20:51:25 发布

阅读量551

点赞数

本文链接：https://blog.csdn.net/ctrigger/article/details/107377735

版权

诞生五年的 TensorFlow 出现大 bug，使用对应训练方式得到的模型甚至论文结果可能受到波及，然而相关 issue 提交 24 天后依然没有 TensorFlow 开发团队的处理。用户表示很失望，「怒而转用 PyTorch」。在事情发酵后，TensorFlow 团队终于回复了，表示已经在改，但对应的功能将在 2.4 版本中才能用。

谷歌团队 2015 年发布的 TensorFlow 框架是目前机器学习领域最流行的框架之一。虽然后起之秀 PyTorch 奋起直追，但 TensorFlow 框架的使用者仍然众多。

TensorFlow 经常被吐槽难用、新版本也常常收到差评，但不管怎样，已经诞生五年之久的 TensorFlow 应该不会有什么太大的 bug 吧？然而，事实似乎并非如此。

最近，机器学习工程师 Santosh Gupta 在使用 TensorFlow 时发现了一个问题：使用 Keras 功能 API 创建的模型自定义层中的权重无法进行梯度更新。

issue 详情：https://github.com/tensorflow/tensorflow/issues/40638

这个帖子在 reddit 上引起了热议，网友纷纷表示：「这是在逼我用 PyTorch！」

到底是什么惊天大 bug？

那么这个令人震惊的 bug 到底是什么呢？

Santosh Gupta 对此的描述是：由于 Tensorflow 的缺陷，阻止了 Keras 功能 API 创建模型的自定义层中权重的梯度更新，从而使这些权重基本上保持无法更新状态。

而我们都知道，梯度更新对于训练神经网络来说相当重要，它是保证模型正常训练的前提。

对于使用自定义图层功能性 API 的研究人员来说，他们往往会运行下列程序：

for i, var in enumerate(model.trainable_variables): print(model.trainable_variables[i].name)

这个程序会保存你的训练权重。而 Tensorflow 中出现的这个 bug，导致使用者在功能性 API 中使用自定义图层时 trainable_variables 缺少权重。同样地，这些权重在 non_trainable_variables 也会消失。

但是，如果这些权重不在可训练变量中，则必须冻结这些权重，因为只有这些权重才会接收梯度更新，如下面的 Keras 模型训练代码所示：

gradients = tape.gradient(loss, trainable_variables) # Whether to aggregate gradients outside of optimizer. This requires support # of the optimizer and doesn't work with ParameterServerStrategy and # CentralStroageStrategy. aggregate_grads_outside_optimizer = ( optimizer._HAS_AGGREGATE_GRAD and # pylint: disable=protected-access not isinstance(strategy.extended, parameter_server_strategy.ParameterServerStrategyExtended)) if aggregate_grads_outside_optimizer: # We aggregate gradients before unscaling them, in case a subclass of # LossScaleOptimizer all-reduces in fp16. All-reducing in fp16 can only be # done on scaled gradients, not unscaled gradients, for numeric stability. gradients = optimizer._aggregate_gradients(zip(gradients, # pylint: disable=protected-access trainable_variables)) if isinstance(optimizer, lso.LossScaleOptimizer): gradients = optimizer.get_unscaled_gradients(gradients) gradients = optimizer._clip_gradients(gradients) # pylint: disable=protected-access if trainable_variables: if aggregate_grads_outside_optimizer: optimizer.apply_gradients( zip(gradients, trainable_variables), experimental_aggregate_gradients=False) else: optimizer.apply_gradients(zip(gradients, trainable_variables))

通过 Colab gist [1]，你可以看到此 bug。

针对上述 bug，也有研究者提出了解决方案。

一种解决方法是改用 Keras 子类创建模型。模型子类化导致所有权重出现在 trainable_variables 中。为了确保功能性 API 和子类模型完全相同，研究人员在每个笔记本底部使用相同的输入对它们进行推论。模型的输出完全相同。但是使用功能性 API 模型进行训练会将许多权重视为冻结。

针对此帖，Keras 之父、谷歌软件工程师 Francois Chollet 也不淡定了。

他表示，「如果第三方写的代码有 bug，且涉及到了 Keras 模型，这并不意味着『Keras 就有 bug』。」

此外，他认为：跟踪自定义图层中训练参数的效果非常好，只需要 7 行代码就可以进行测试。

最新动向：引发热议后，谷歌回复

在 Francois Chollet 发推一小时后，谷歌工程师、TensorFlow 贡献者 Tomer Kaftan 在 GitHub 上回复了该 issue：