tf.concat与tf.stack的区别与联系

最新推荐文章于 2022-09-30 16:10:44 发布

lty_sky

最新推荐文章于 2022-09-30 16:10:44 发布

阅读量420

点赞数 2

原文链接：https://zhuanlan.zhihu.com/p/45423615

版权

今天看论文复现的时候遇到tf.stack()这个函数，本来以为是个小函数，结果费了好大劲儿才弄明白，还是记录一下好了。tf.concat与tf.stack这两个函数作用类似，都是在某个维度上对矩阵(向量）进行拼接，不同点在于前者拼接后的矩阵维度不变，后者则会增加一个维度。

让我们具体来看一下两者究竟有什么区别，举个栗子。

import tensorflow as tf
a = tf.constant([[1,2,3],[4,5,6]])
b = tf.constant([[7,8,9],[10,11,12]])
ab1 = tf.concat([a,b],axis=0)
ab2 = tf.stack([a,b], axis=0)
sess = tf.Session()
print(sess.run(ab1))
print(sess.run(ab2))
print(sess.run(ab1).shape)
print(sess.run(ab2).shape)
输出：
#ab1
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
#ab2
[[[ 1  2  3]
  [ 4  5  6]]
 [[ 7  8  9]
  [10 11 12]]]
(4, 3)
(2, 2, 3)

先看tf.concat，例子中，a，b维度均为（2 * 3），ab是通过tf.concat函数将两个矩阵进行拼接后的矩阵，可以看到维度为（4 * 3），axis=0代表在第一个维度进行拼接，之前看过很多函数类似tf.reduce_mean()等等都会有维度这个参数，官网以及博客上的许多讲解都是直接用“第几维，也就是每一行（列）进行拼接”这样的说法，我感觉并不好理解。我自己的理解是对哪个维度进行拼接，则拼接后的矩阵那个维度就变化，其余维度保持不变。本例中进行拼接的两个矩阵维度为（2 * 3），axis=0，则拼接后的矩阵第一个维度，即“2”这个维度会变，不用管行和列，毕竟实际中遇到的都是高维。那“2”这个维度应该变成几呢？很明显，另一个维度不变的情况下只能由“2”变成“4”，即拼接后的矩阵为（4 * 3），即打印出的ab1。举一个高维的例子。假如两个矩阵均为（64 * 2 * 2 * 100），64代表一批图片的batch，2 * 2代表图片大小，100代表用某个尺寸的filter（两个矩阵两个不同的filter尺寸）提取的100种特征，在axis = 3维度上进行拼接，结果为（64 * 2 * 2 * 200），发挥一下想象力，就是将两次不同尺寸filter提取的特征拼接到了一起，形成了新的图片表示（cnn 文本分类不同filter提取特征拼接时我就是靠这么想象的......）。

再看tf.stack，最明显的区别是在原来矩阵基础上增加了一个维度，也是同样的道理，axis决定维度增加的位置，矩阵的本来维度保持不变。本例中axis=0，两个矩阵本来都为（2 * 3），进行拼接后，矩阵本来维度保持不变，只不过在第一维位置增加了一个新维度，则新矩阵的维度为（x * 2 * 3），x就为拼接的矩阵个数，这里是两个，则为（2 * 2 * 3），如果axis=2，则新矩阵维度为（2 * 3 * 2），至于拼接后的矩阵元素组合，我就是看几个例子然后瞅出来的，我也不知道怎么说QAQ（下面就是我研（xia）究（bian）的方法）。

t1 = [[1, 2, 3], [4, 5, 6]]
t2 = [[7, 8, 9], [10, 11, 12]]
tf.stack([t1, t2], 2)  ==> [[[1, 7], [2, 8], [3, 9]], [[4, 10], [5, 11], [6, 12]]]

拼接后的矩阵显然为（2 * 3 * 2），注意此时最后一个“2”是新增的，之前的（2 * 3）为原来的维度，但是新矩阵（2 * 3 * 2），应该把最后两个维度联合起来理解，即（2 * （3 * 2）），这样原来的旧维度（2 * 3）就被破坏了，所以是[1,7]而不是[1,4]，axis为其他维度时也是这样理解。即，如果原维度被拆开，则两个矩阵元素会混合。

以上只是我自己的理解，希望有明白的大佬不吝赐教...

注：tf.stack返回array，tf.unstack返回list。