今天看论文复现的时候遇到tf.stack()这个函数,本来以为是个小函数,结果费了好大劲儿才弄明白,还是记录一下好了。tf.concat与tf.stack这两个函数作用类似,都是在某个维度上对矩阵(向量)进行拼接,不同点在于前者拼接后的矩阵维度不变,后者则会增加一个维度。
让我们具体来看一下两者究竟有什么区别,举个栗子。
import tensorflow as tf
a = tf.constant([[1,2,3],[4,5,6]])
b = tf.constant([[7,8,9],[10,11,12]])
ab1 = tf.concat([a,b],axis=0)
ab2 = tf.stack([a,b], axis=0)
sess = tf.Session()
print(sess.run(ab1))
print(sess.run(ab2))
print(sess.run(ab1).shape)
print(sess.run(ab2).shape)
输出:
#ab1
[[ 1 2 3]
[ 4 5 6]
[ 7 8 9]
[10 11 12]]
#ab2
[[[ 1 2 3]
[ 4 5 6]]
[[ 7 8 9]
[10 11 12]]]
(4, 3)
(2, 2, 3)
先看tf.concat,例子中,a,b维度均为(2 * 3),ab是通过tf.concat函数将两个矩阵进行拼接后的矩阵,可以看到维度为(4 * 3),axis=0代表在第一个维度进行拼接,之前看过很多函数类似tf.reduce_mean()等等都会有维度这个参数,官网以及博客上的许多讲解都是直接用“第几维,也就是每一行(列)进行拼接”这样的说法,我感觉并不好理解。我自己的理解是对哪个维度进行拼接,则拼接后的矩阵那个维度就变化,其余维度保持不变。本例中进行拼接的两个矩阵维度为(2 * 3),axis=0,则拼接后的矩阵第一个维度,即“2”这个维度会变,不用管行和列,毕竟实际中遇到的都是高维。那“2”这个维度应该变成几呢?很明显,另一个维度不变的情况下只能由“2”变成“4”,即拼接后的矩阵为(4 * 3),即打印出的ab1。举一个高维的例子。假如两个矩阵均为(64 * 2 * 2 * 100),64代表一批图片的batch,2 * 2代表图片大小,100代表用某个尺寸的filter(两个矩阵两个不同的filter尺寸)提取的100种特征,在axis = 3维度上进行拼接,结果为(64 * 2 * 2 * 200),发挥一下想象力,就是将两次不同尺寸filter提取的特征拼接到了一起,形成了新的图片表示(cnn 文本分类不同filter提取特征拼接时我就是靠这么想象的......)。
再看tf.stack,最明显的区别是在原来矩阵基础上增加了一个维度,也是同样的道理,axis决定维度增加的位置,矩阵的本来维度保持不变。本例中axis=0,两个矩阵本来都为(2 * 3),进行拼接后,矩阵本来维度保持不变,只不过在第一维位置增加了一个新维度,则新矩阵的维度为(x * 2 * 3),x就为拼接的矩阵个数,这里是两个,则为(2 * 2 * 3),如果axis=2,则新矩阵维度为(2 * 3 * 2),至于拼接后的矩阵元素组合,我就是看几个例子然后瞅出来的,我也不知道怎么说QAQ(下面就是我研(xia)究(bian)的方法)。
t1 = [[1, 2, 3], [4, 5, 6]]
t2 = [[7, 8, 9], [10, 11, 12]]
tf.stack([t1, t2], 2) ==> [[[1, 7], [2, 8], [3, 9]], [[4, 10], [5, 11], [6, 12]]]
拼接后的矩阵显然为(2 * 3 * 2),注意此时最后一个“2”是新增的,之前的(2 * 3)为原来的维度,但是新矩阵(2 * 3 * 2),应该把最后两个维度联合起来理解,即(2 * (3 * 2)),这样原来的旧维度(2 * 3)就被破坏了,所以是[1,7]而不是[1,4],axis为其他维度时也是这样理解。即,如果原维度被拆开,则两个矩阵元素会混合。
以上只是我自己的理解,希望有明白的大佬不吝赐教...
注:tf.stack返回array,tf.unstack返回list。