transformer剪枝论文汇总

清风幻影17

已于 2024-02-07 09:58:14 修改

阅读量3.2k

点赞数 24

文章标签： transformer 剪枝深度学习模型压缩

于 2024-02-06 17:34:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41021342/article/details/136059572

版权

文章目录

NN Pruning
- - 摘要
  - 实验
大模型剪枝
- LLM-Pruner
- SparseGPT
LTP
VTP
Width & Depth Pruning
Patch Slimming
DynamicViT
SPViT
DynamicBERT
ViT Slimming
FastFormers
NViT
UVC
Post-training pruning

NN Pruning

《Block Pruning For Faster Transformers》
《为更快的transformer进行块修剪》

摘要

预训练提高了模型在分类和生成任务的精度，但缺点是成本较高，性能慢；
剪枝是一种减少模型大小的有效方法；
论文引入了块剪枝方法，为了得到小且快的模型。通过将任意大小的块剪枝集成到运动剪枝微调范式中；
实验在分类和生成任务，得到剪枝后的模型2.4x更快，74%更小的BERT在SQuAD v1，F1仅下降1%，与其他蒸馏模型相比速度更快，与其他剪枝模型相比模型更小。

实验

在这里插入图片描述

在这里插入图片描述

论文地址
 github地址1
github地址2

FFN剪枝 attention heads剪枝

大模型剪枝

最低0.47元/天解锁文章

博客等级

码龄8年

41
原创

286
点赞

537
收藏

476
粉丝

关注

私信

热门文章

上一篇：: 模型压缩开源项目：阿里-tinyNAS/微软NNI/华为-vega

下一篇：: 模型蒸馏distill /模型剪枝论文汇总

最新评论

【扩散模型系列3】DiT开源项目
Long_Dragon_v: 您好，请问您已经解决了吗？如何使用DiT训练自己的训练集？
【扩散模型系列3】DiT开源项目
清风幻影17: 应该可以把自己的数据集整理成和imagesnet 一样的格式，然后就可以复用代码进行训练了，我这边也没有使用自己的数据集训练。
【扩散模型系列3】DiT开源项目
shuhai6260: 您好，我想请问，我应该怎么训练自己的数据集哪。恳请大佬指教，谢谢。
【扩散模型系列2】DiT 《Scalable Diffusion Models with Transformers》论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
OPT-IML:Scaling Language Model Instruction MetaLearning through the Lens of Generalization 论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。