NN Pruning
《Block Pruning For Faster Transformers》
《为更快的transformer进行块修剪》
摘要
预训练提高了模型在分类和生成任务的精度,但缺点是成本较高,性能慢;
剪枝是一种减少模型大小的有效方法;
论文引入了块剪枝方法,为了得到小且快的模型。通过将任意大小的块剪枝集成到运动剪枝微调范式中;
实验在分类和生成任务,得到剪枝后的模型2.4x更快,74%更小的BERT在SQuAD v1,F1仅下降1%,与其他蒸馏模型相比速度更快,与其他剪枝模型相比模型更小。
实验


论文地址
github地址1
github地址2
FFN剪枝 attention heads剪枝
大模型剪枝