![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
经典论文阅读
Loy_Fan
Life can not be planned
展开
-
CTR预估系列炼丹入门手册
九羽-炼丹笔记大图FiBiNET:结合特征重要性和双线性特征交互进行CTR预估背景本文发表在RecSys 2019,主要通过动态学习不同特征的特征重要性权重,解决CTR预估中对不同场景下不同特征的权重(ReWeight)重定义问题,同时,双线性的使用解决稀疏数据在特征交叉建模时的有效性问题。创新由模型结构图我们可以发现,本文核心结构主要有两个,Embedding Layer中的SENET Layer 和 Bilinear-Interaction Layer 。其中 SENET La.原创 2020-09-15 17:19:07 · 305 阅读 · 0 评论 -
《Search to Distill: Pearls are Everywhere but not the Eyes》论文阅读
[https://arxiv.org/abs/1911.09074] CVPR OralMotivation知识蒸馏一般是由 teacher,student 两个网络组成,teacher 一般是 ResNet 152 这样的大模型,student 一般是 Res50 这样的小模型。为了让小模型能学的更好,student 网络预测的结果不仅和 ground truth 算 loss,还和 t...转载 2020-04-11 12:14:39 · 354 阅读 · 0 评论 -
《Deep Mutual Learning》论文阅读
介绍模型蒸馏算法由Hinton等人在2015年提出,利用一个预训练好的大网络当作教师来提供小网络额外的知识即平滑后的概率估计,实验表明小网络通过模仿大网络估计的类别概率,优化过程变得更容易,且表现出与大网络相近甚至更好的性能。然而模型蒸馏算法需要有提前预训练好的大网络,且大网络在学习过程中保持固定,仅对小网络进行单向的知识传递,难以从小网络的学习状态中得到反馈信息来对训练过程进行优化调整。我们...转载 2020-04-10 09:26:24 · 1206 阅读 · 1 评论 -
《Do Deep Nets Really Need to be Deep》论文阅读
https://arxiv.org/abs/1312.6184Lei Jimmy Ba, Rich CaruanaNIPS 2014 引用量-964深层神经网络的性能相比浅层网络提升是因为什么?更多参数可以在给定相同数量参数的情况下学习更复杂的函数具有更好的归纳偏差,可以学习更有用的功能,学习层次表示非卷积网络很难学习到卷积网络学习到的特征表示当前的优化算法和正则化方法在深层...原创 2020-04-09 15:22:04 · 313 阅读 · 0 评论 -
《Distilling the Knowledge in a Neural Network》阅读
knowledge distillation原创 2020-03-31 20:24:23 · 551 阅读 · 0 评论 -
《PAYING MORE ATTENTION TO ATTENTION》论文阅读
论文全名 PAYING MORE ATTENTION TO ATTENTION: IMPROVING THE PERFORMANCE OF CONVOLUTIONAL NEURAL NETWORKS VIA ATTENTION TRANSFER介绍本文将knowledge定义为anttention map,student模仿teacher的attention map。与《A gift f...原创 2020-04-08 16:31:14 · 2004 阅读 · 1 评论 -
《Net2Net: Accelerating Learning Via Knowledge Transfer》 论文阅读
Tianqi Chen, Ian Goodfellow, Jonathon Shlens, ICLR 2016 引用量-278https://arxiv.org/abs/1511.056411 简介知识迁移路径:预训练网络->更深/宽的网络目前很多任务都会训练多个不同的网络,每一个可能是对之前的网络的改进,但是每一个网络的训练都是从头开始的,很浪费,本文设计一个方法加快改进网络的...原创 2020-04-09 14:27:45 · 1083 阅读 · 0 评论 -
Maxout Networks - 论文阅读
ICML 2013 《Maxout Networks》Ian J. Goodfellow | David Warde-Farley | Mehdi Mirza | Aaron Courville | Yoshua Bengiopaper link1 概览这篇论文总结起来就是一个公式:hi(x)=maxj∈[1,k]zijh_{i}(x)=\max _{j \in[1, k]} z...原创 2019-11-22 16:23:03 · 239 阅读 · 0 评论 -
ImageNet Classification with Deep Convolutional Neural Networks - AlexNet 2012文章解析和代码
NIPS 2012 《ImageNet Classification with Deep Convolutional Neural Networks》Alex Krizhevsky | Ilya Sutskever | Geoffrey E. Hintonhttps://papers.nips.cc/paper/4824-imagenet-classification-with-deep-c...原创 2019-03-29 16:21:22 · 407 阅读 · 0 评论