模型压缩
猫猫与橙子
这个作者很懒,什么都没留下…
展开
-
Bert压缩:《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks》
前言:最近在想办法压缩有rnn的网络,所以查看了这篇文章出处:University of Waterloo(滑铁卢大学)Abstract本文作者认为轻量级基础网络在没有进行网络结构更改,额外的训练数据或额外特征以外,依然可以具备很强的竞争能力。作者就提出了使用BERT-大模型对BiLSTM进行蒸馏,得到的结果是与BERT相比,参数少了近100倍,推理时间提升了15倍;结论:该文的方法不进行详细的描述,总言之,作者在预测得分层使用了欧式距离进行了蒸馏,并使用了teacher网络对未知标签的数据原创 2021-03-24 15:36:47 · 430 阅读 · 0 评论 -
rnn蒸馏(1):RuntimeError: cudnn RNN backward can only be called in training mode
注:对于含有rnn的模型怎样设置参数不回传在模型蒸馏的常规训练中,大模型的参数都是设置不更新回传,使用self.model_T.eval()就可以达到固定大模型参数的效果;但是当模型网络结构中包含有rnn,例:class BidirectionalLSTM(nn.Module): def __init__(self, nIn, nHidden, nOut): super(BidirectionalLSTM, self).__init__() s原创 2021-03-11 10:26:45 · 1147 阅读 · 0 评论 -
【模型压缩】Channel Pruning via Optimal Thresholding
论文链接:https://arxiv.org/pdf/2003.04566.pdf动机:现在压缩工作中,通过预定义的度量(metric)计算出的阈值进行模型剪枝,这种阈值忽略了不同层的变化和权值分布的不同,所以这种剪枝方法通常过剪枝和欠剪枝得到一个次优的结果。本篇论文中,作者提出了一个方法:最优阈值(OT,Optimal Thresholding),每层剪枝使用不同的阈值。通过使用OT,保...原创 2020-03-16 18:33:30 · 852 阅读 · 0 评论 -
【distillation】shrinkTeaNet:Million-scale Lightweight Face Recognition via Shrinking T-S Networks
论文完整题目:shrinkTeaNet:Million-scale Lightweight Face Recognition via Shrinking Teacher-StudentNetworks论文链接:https://arxiv.org/abs/1905.10620v1作者的动机:性能好的人脸识别网络由于其庞大的参数和复杂的网络结构比较困难,作者想要得到一个小型但是精度又还可以与...原创 2019-06-13 17:26:01 · 1358 阅读 · 8 评论 -
【压缩】SlimYOLOv3:Narrower,Faster and Better for Real-Time UAV Application
论文链接:https://arxiv.org/pdf/1907.11093.pdf一篇关于对yoloV3进行压缩的论文;摘要:作者在VisDrone2018-Det benchmark dataset上进行了测试,浮点运算次数下降了~90.8%,参数量下降了92.0%,和检测精度相当的YOLOV3相比,速度快了两倍。代码可以在这里得到:https://github.com/Pengyi...原创 2019-08-09 16:07:45 · 1827 阅读 · 2 评论