Tensorflow中不同行但同列的矩阵加法
在设置神经网络的时候,我们可能会看到这样的代码
# z=wx,模拟获得激活函数的输入z
z = tf.random.normal([4,2])
b = tf.constant([1.,2.]) # 模拟偏置向量
z = z + b # 累加偏置
其中的z = z + b可能会让你感到非常的诧异什么一个4行2列的矩阵可以和一个1行2列的矩阵相加???其实这里的运算法则就是把b看作一个这样的矩阵:
1 2 1 2 1 2 1 2 \begin{matrix} 1 & 2 \\ 1 & 2 \\ 1 & 2 \\ 1 & 2 \end{matrix} 11112222
然后再加起来,问题就是这样
为什么要这样设计呢?
回到我们设计偏置的初衷,我们给每个层的每个输出节点添加一个偏置,这个偏置数
据是对所有的样本都是共享的,换言之,每个样本都应该累加上同样的偏置向量𝒃,如图 所示:
Broadcasting机制:
这样的设计方法其实是满足Broadcasting机制,这个在我的另一篇博客中有详细讲述。
链接:https://blog.csdn.net/python_LC_nohtyp/article/details/104097417