Tensorflow2.0之Broadcasting

最新推荐文章于 2022-05-21 13:16:39 发布

AndSonder

最新推荐文章于 2022-05-21 13:16:39 发布

阅读量405

点赞数 1

分类专栏：小白的ai学习之路 TF2 文章标签： python 人工智能机器学习 tensorflow

本文链接：https://blog.csdn.net/python_LC_nohtyp/article/details/104097417

版权

小白的ai学习之路同时被 2 个专栏收录

83 篇文章 8 订阅

订阅专栏

TF2

37 篇文章 2 订阅

订阅专栏

Tensorflow2.0之Broadcasting

什么是Broadcasting：

Broadcasting 也叫广播机制(自动扩展也许更合适)，它是一种轻量级张量复制的手段，在逻
辑上扩展张量数据的形状，但是只要在需要时才会执行实际存储复制操作。对于大部分场
景，Broadcasting 机制都能通过优化手段避免实际复制数据而完成逻辑运算，从而相对于tf.tile 函数，减少了大量计算代价。

对于所有长度为1 的维度，Broadcasting 的效果和tf.tile 一样，都能在此维度上逻辑复制数据若干份，区别在于tf.tile 会创建一个新的张量，执行复制IO 操作，并保存复制后的张量数据，Broadcasting 并不会立即复制数据，它会逻辑上改变张量的形状，使得视图上变成了复制后的形状。Broadcasting 会通过深度学习框架的优化手段避免实际复制数据而完成逻辑运算，至于怎么实现的用户不必关系，对于用于来说，Broadcasting 和tf.tile 复制的最终效果是一样的，操作对用户透明，但是Broadcasting 机制节省了大量计算资源，建议在运算过程中尽可能地利用Broadcasting 提高计算效率。

考虑的Y = X@W + 𝒃的例子，X@W的shape 为[2,3]，𝒃的shape 为[3]，我们可以通过结合tf.expand_dims 和tf.tile 完成实际复制数据运算，将𝒃变换为[2,3]，然后与X@W完成相加。但实际上，我们直接将shape 为[2,3]与[3]的𝒃相加：

x = tf.random.normal([2,4])
w = tf.random.normal([4,3])
b = tf.random.normal([3])
y = x@w+b

上述加法并没有发生逻辑错误，那么它是怎么实现的呢？这是因为它自动调用Broadcasting函数tf.broadcast_to(x, new_shape)，将2 者shape 扩张为相同的[2,3]，即上式可以等效为：

y = x@w + tf.broadcast_to(b,[2,3])

也就是说，操作符+在遇到shape 不一致的2 个张量时，会自动考虑将2 个张量Broadcasting 到一致的shape，然后再调用tf.add 完成张量相加运算，这也就解释了我们之前一直存在的困惑。通过自动调用tf.broadcast_to(b, [2,3])的Broadcasting 机制，既实现了增加维度、复制数据的目的，又避免实际复制数据的昂贵计算代价，同时书写更加简洁高效。

那么有了Broadcasting 机制后，所有shape 不一致的张量是不是都可以直接完成运算？很明显，所有的运算都需要在正确逻辑下进行，Broadcasting 机制并不会扰乱正常的计算逻辑，它只会针对于最常见的场景自动完成增加维度并复制数据的功能，提高开发效率和运行效率。这种最常见的场景是什么呢？这就要说到Broadcasting 设计的核心思想。

Broadcasting 机制的核心思想是普适性，即同一份数据能普遍适合于其他位置。在验证普适性之前，需要将张量shape 靠右对齐，然后进行普适性判断：对于长度为1 的维度，默认这个数据普遍适合于当前维度的其他位置；对于不存在的维度，则在增加新维度后默认当前数据也是普适性于新维度的，从而可以扩展为更多维度数、其他长度的张量形状.

考虑 shape 为[ , 1]的张量A，需要扩展为shape：[𝑏, ℎ, , 𝑐]，如图 4.7 所示，上行为欲扩展的shape，下面为现有shape：
在这里插入图片描述
首先将2 个shape 靠右对齐，对于通道维度c，张量的现长度为1，则默认此数据同样适合当前维度的其他位置，将数据逻辑上复制𝑐 − 1份，长度变为c；对于不存在的b 和h 维度，则自动插入新维度，新维度长度为1，同时默认当前的数据普适于新维度的其他位置，即对于其它的图片、其他的行来说，与当前的这一行的数据完全一致。这样将数据b，h 维度的长度自动扩展为b，h，如下图所示：

在这里插入图片描述
通过 tf.broadcast_to(x, new_shape)可以显式将现有shape 扩张为new_shape：

In [87]:
A = tf.random.normal([32,1])
tf.broadcast_to(A, [2,32,32,3])
Out[87]:
<tf.Tensor: id=13, shape=(2, 32, 32, 3), dtype=float32, numpy=
array([[[[-1.7571245 , -1.7571245 , -1.7571245 ],
[ 1.580159 , 1.580159 , 1.580159 ],
[-1.5324328 , -1.5324328 , -1.5324328 ],...

可以看到，在普适性原则的指导下，Broadcasting 机制变得直观好理解，它的设计是非常符合人的思维模式。
我们来考虑不满足普适性原则的例子，如下图所示：
在这里插入图片描述
在 c 维度上，张量已经有2 个特征数据，新shape 对应维度长度为c(𝑐 ≠ 2，比如c=3)，那么当前维度上的这2 个特征无法普适到其他长度，故不满足普适性原则，无法应用Broadcasting 机制，将会触发错误：

In [88]:
A = tf.random.normal([32,2])
tf.broadcast_to(A, [2,32,32,4])
Out[88]:
InvalidArgumentError: Incompatible shapes: [32,2] vs. [2,32,32,4]
[Op:BroadcastTo]

在进行张量运算时，有些运算可以在处理不同shape 的张量时，会隐式自动调用Broadcasting 机制，如+，-，*，/等运算等，将参与运算的张量Broadcasting 成一个公共shape，再进行相应的计算，如图 4.10 所示，演示了3 种不同shape 下的张量A，B 相加的
例子：

在这里插入图片描述
简单测试一下基本运算符的自动Broadcasting 机制：

a = tf.random.normal([2,32,32,1])
b = tf.random.normal([32,32])
a+b,a-b,a*b,a/b

这些运算都能Broadcasting 成[2,32,32,32]的公共shape，再进行运算。熟练掌握并运用
Broadcasting 机制可以让代码更简洁，计算效率更高。

AndSonder

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Tensorflow2.0之Broadcasting

Tensorflow2.0之Broadcasting什么是Broadcasting：Broadcasting 也叫广播机制(自动扩展也许更合适)，它是一种轻量级张量复制的手段，在逻辑上扩展张量数据的形状，但是只要在需要时才会执行实际存储复制操作。对于大部分场景，Broadcasting 机制都能通过优化手段避免实际复制数据而完成逻辑运算，从而相对于tf.tile 函数，减少了大量计算代价。...
复制链接

扫一扫