1.前言
在深度学习中,我们经常需要对模型的中间输出或者最终输出进行相应的裁剪。
以达到我们想要的维度,让模型层之间计算顺畅,这时候squeeze函数就相当的有用。
2.squeeze的用法
squeeze主要裁剪的是尺寸为1的维度,如一个shape为(5,1,10)的矩阵,我们想将中间的1去掉,代码如下。
import paddle
x = paddle.rand([5, 1, 10])
output = paddle.squeeze(x, axis=1)
print(x.shape) # [5, 1, 10]
print(output.shape) # [5, 10]
那么常见使用的时候往往是将(16,10,1)的最后一个尺寸为1的象限去掉,这时候代码如下:
import paddle
x = paddle.rand([16, 10, 1])
output = paddle.squeeze(x, axis=-1)
print(x.shape) # [16, 10, 1]
print(output.shape) # [16, 10]
那么知道squeeze的用法后,我们就可以开始为所欲为了。
3.squeeze在bert文本分类中实例
假设我们现在有一个bert,大家都知道一个(1,10)长度的文本经过bert标准模型会变为(1,10,768)的向量。
其中768代表的每个字的向量信息,在文本分类中我们惯用第一个token即first-token的向量作为文本分类模型的输入。
但是我们也