![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读
文章平均质量分 83
分享论文阅读心路历程
Undefined游侠
这个作者很懒,什么都没留下…
展开
-
每日论文231001--Learning Deep Representations with Probabilistic Knowledge Transfer
本论文解决问题的初衷是非常好的,也就是通过KT来解决非物体分类之外的问题,但是解决的策略则是将信息论的各种概念强行植入,阅读起来给人的感觉是没有太强的内在逻辑,不连贯,不过实验最后的结果看起来还不错。原创 2023-10-02 14:11:51 · 88 阅读 · 0 评论 -
每日论文231103: once for all
视频链接:项目链接:论文链接:该项目吸引到我的是,它在效率和精度上实现的非常好的效果, 配合efficientML的Lecture也是很香.此外, 提供的视频链接介绍了ofa的使用方式.原创 2023-11-29 12:15:14 · 31 阅读 · 0 评论 -
每日论文231018--The Lottery Ticket Hypothesis
在模型剪枝(network pruning)的问题中,通常会使用基于原有模型训练好的权重进行pruning,然后finetune的方式,获得压缩后的模型。但是,如何让大模型寻找到需要prune的weights,这依旧需要大模型的训练。此外,这个只能基于cifar-10等小数据,在imagenet中表现不佳。也就是说经过剪枝得到的小模型,除了通过finetune的方式获得权重外,也可以从随机初始化开始训练,并且也可以得到和大模型相近的效果。而这篇文章的作者提出,原创 2023-10-18 09:14:58 · 45 阅读 · 0 评论 -
每日论文230928--Paying more attention to attention
作者提出了针对注意力的学习策略,并且提出了基于梯度,和基于激活函数的两种策略,并且证明这两种策略都可以有效。原创 2023-09-29 10:45:46 · 42 阅读 · 0 评论 -
每日论文230926--FITNETS: HINTS FOR THIN DEEP NETS
阅读论文的想法时,很自然的会想到一个问题,teacher model和student model的中间层维度和含义如何能对应呢?并且,用全链接的方式与中间层建立连接虽然容易想到,但是却造成了计算量的增加,而使用卷积层似乎是个更好的选择。论文使用的方法直觉上来讲也是直接的:既然网络很深直接训练会困难,那就通过在中间层加入loss的方法,如此分成两块来训练,应该能得到更好的结果。它的主要思想如下:使用更深和更细的student model可以获得更好的结果,并且使用中间层 的输出作为提示。原创 2023-09-26 22:29:45 · 151 阅读 · 0 评论 -
每日论文230927--Do Deep Nets Really Need to be Deep?
时间: NIPS 2014链接:作者在论文开始就提出了发人深省的连环问题因为更深的网路拥有更多的参数?因为更深的网络可以学习更复杂的功能?即使参数量一致因为更深的网络可以学习结构性的表征,因为它具有inductive bias?因为更深的网络具有卷积层?因为现有的学习算法和正则方法更适合深的网络?和以上提到的所有原因都有关系?或者都没有联系?这篇论文想证明浅的网络同样可以学习深度网络同样的功能,只不过参数是一样多的。原创 2023-09-27 17:21:56 · 57 阅读 · 0 评论 -
每日论文230924-Knowledge DIstilliation: A Survey
随着AI应用的增加,在手机或者其他终端设备上进行算法部署也遇到了更多挑战。模型压缩的相关技术:论文结构。原创 2023-09-24 17:18:43 · 72 阅读 · 0 评论 -
每日论文230925-Distilling the knowledge in a neural network
Hintion在论文开头用了一个生物的例子,“昆虫在幼虫阶段的形态通常用于从大自然中吸取营养,但成年后,它们又被优化为了不同的形态,用于满足飞行和生産的需求“。用这个例子来表达KD的动机,还是很有想象力的。在towardsdatasciense中,也有另一个贴切的比喻,像是在备考时,老师不可能什么都教,而是要”画重点“。之前很多失败的research是因为试图让模型学习到的参数保持一致, 而如果只是学习输入到输出的mappiing,也许会取得不错的进展。原创 2023-09-25 22:05:32 · 32 阅读 · 0 评论 -
每日论文230929--Like What You Like
作者定义的MMD loss 如下:而其中,kernel函数的选择有如下方式。原创 2023-09-30 13:31:35 · 37 阅读 · 0 评论