事情是这样的,我的网络结构是这样的:
只有一层lstm+avgpooling+linear,且linear只有一个32*4的隐藏层。
网络层很小,所以肯定不是网络参数的事儿,那么问题就出现在样本上。
训练数据是有标签样本每批16篇文章,无标签样本5000+,测试集是(有标签+无标签)*0.2。
input并没有被
torch.cuda.empty_cache()
清除 。
因此,在使用完网络输出结果后,直接del,这样就不会超出内存了。
事情是这样的,我的网络结构是这样的:
只有一层lstm+avgpooling+linear,且linear只有一个32*4的隐藏层。
网络层很小,所以肯定不是网络参数的事儿,那么问题就出现在样本上。
训练数据是有标签样本每批16篇文章,无标签样本5000+,测试集是(有标签+无标签)*0.2。
input并没有被
torch.cuda.empty_cache()
清除 。
因此,在使用完网络输出结果后,直接del,这样就不会超出内存了。