深度学习Trick
文章平均质量分 68
yuanCruise
工科生的笔尖
展开
-
知识蒸馏 | 模型压缩利器_良心总结
1.什么是知识蒸馏最近利用知识蒸馏的方法,对业务中的性能有了可观的提升,因此在这里总结一波。本文主要从宏观的角度分析一下各个蒸馏算法的蒸馏方式,具体细节可以根据兴趣阅读论文~ 知识蒸馏是一种模型压缩常见方法,用于模型压缩指的是在teacher-student框架中,将复杂、学习能力强的网络学到的特征表示“知识蒸馏”出来,传递给参数量小、学习能力弱的网络。从而我们会得到一个速度快,能力强的网络,...原创 2020-05-03 15:37:29 · 3471 阅读 · 0 评论 -
工程Trick | 合并BN层加速前向推理
1.BatchNorm在训练深度网络模型时,BN(Batch Normalization)层能够加速网络收敛,并且能够控制过拟合,一般放在卷积层之后。如下示意图所示,BatchNorm是以通道为单位,对当前通道中所有的N、H、W做归一化。BN 层将特征归一化后,能够有效解决由于特征分布不均匀而导致的梯度消失与梯度爆炸问题。并通过可学习参数保证特征的有效性。虽然 BN 层在训练时起到了积极作用...原创 2020-03-13 20:58:49 · 541 阅读 · 0 评论 -
深度炼丹 | 这次我站边:数学很重要
经常会看到各路大牛在给深度学习小白铺路的时候会把高等数学,线性代数列为入门级必看读物,当然这个观点褒贬不一,我对这个观点最开始持中立的态度,毕竟很多时候掉包就能应付百分之70的工作。但这次,我站边:学深度学习一定要会点高数。1.抛出问题本文从如下知乎问题(也是我这次遇到的问题)展开。问题描述如下:该问题描述到:如下图所示,在训练的过程中整体loss在下降,但总在几个固定的batch,l...原创 2019-06-02 15:01:31 · 2300 阅读 · 0 评论 -
深度学习 | 分类任务中类别不均衡解决策略
0.前言在解决一个分类问题时,遇到样本不平衡问题。查找CSDN后,以及知乎后,发现网上有很多类似于欠采样 ,重复采样,换模型等等宏观的概念,并没有太多可实际应用(代码)的策略。经过一番查找和调试和修改,最终找到3个相对靠谱的策略,故总结此文给有需要同志,策略均来自网络,本人只是进行了部分代码修改和可用性测试。以下将简单介绍各个策略的机制以及对应代码(亲测能跑通)。NOTE:下述代码均是基于c...原创 2019-03-10 11:49:23 · 2916 阅读 · 1 评论 -
机器学习中用来防止过拟合的方法有哪些?
1.什么是过拟合首先用我自己的语言来解释下什么是过拟合:由于模型过于复杂,学习能力过强,而用于训练的数据相对于复杂模型来说比较简单,所有模型会去学习数据中隐含的噪声,导致模型学不到真正数据集的分布,如下图所示,红色线就是由于模型过分的拟合了训练数据集,导致泛化能力过差。而蓝色线才是真正的数据集的分布。2.抑制过拟合的策略简单浏览了下网络上的各种总结抑制过拟合的策略,大概有如下几点:数据...原创 2019-03-06 23:39:29 · 1002 阅读 · 0 评论 -
深度学习 | 训练网络trick——知识蒸馏
1.原理介绍知识蒸馏论文地址Hinton的文章"Distilling the Knowledge in a Neural Network"首次提出了知识蒸馏的概念,通过引入教师网络用以诱导学生网络的训练,实现知识迁移。所以其本质上和迁移学习有点像,但实现方式是不一样的。用“蒸馏”这个词来形容这个过程是相当形象的。用下图来解释这个过程。教师网络:大规模,参数量大的复杂网络模型。难以应用到设...原创 2019-03-03 10:51:00 · 3987 阅读 · 0 评论 -
深度学习 | 训练网络trick——mixup
1.mixup原理介绍mixup 论文地址mixup是一种非常规的数据增强方法,一个和数据无关的简单数据增强原则,其以线性插值的方式来构建新的训练样本和标签。最终对标签的处理如下公式所示,这很简单但对于增强策略来说又很不一般。(xi,yi)\left ( x_{i},y_{i} \right )(xi,yi),(xj,yj)\left ( x_{j},y_{j} \right )(xj...原创 2019-03-02 10:30:35 · 5002 阅读 · 3 评论 -
深度学习 | 训练网络trick——label smoothing(附代码)
1.背景介绍:在多分类训练任务中,输入图片经过神级网络的计算,会得到当前输入图片对应于各个类别的置信度分数,这些分数会被softmax进行归一化处理,最终得到当前输入图片属于每个类别的概率。之后在使用交叉熵函数来计算损失值:最终在训练网络时,最小化预测概率和标签真实概率的交叉熵,从而得到最优的预测概率分布。在此过程中,为了达到最好的拟合效果,最优的预测概率分布为:也就是说,网络...原创 2019-01-29 00:23:26 · 25114 阅读 · 3 评论 -
深度学习 | 分类任务中类别不均衡解决策略(附代码)
0.前言在解决一个分类问题时,遇到样本不平衡问题。CSDN后,发现网上有很多类似于欠采样 ,重复采样,换模型等等宏观的概念,并没有太多可实际应用(代码)的策略。经过一番查找和调试,最终找到3个相对靠谱的策略,故总结此文给有需要同志,策略均来自网络,本人只是进行了可用性测试并总结于此。以下将简单介绍各个策略的机制以及对应代码(亲测能跑通)。NOTE:下述代码均是基于caffe的,而且实现策略都...原创 2019-01-20 12:26:20 · 1874 阅读 · 0 评论 -
【代价函数】MSE:均方误差(L2 loss)
MSE均方误差(L2 loss)1.代码展示MAE和MSE图片特性import tensorflow as tfimport matplotlib.pyplot as pltsess = tf.Session()x_val = tf.linspace(-1.,-1.,500)target = tf.constant(0.)#计算L2_lossl2_y_val = tf...原创 2018-08-27 14:56:19 · 82488 阅读 · 1 评论 -
【代价函数】Cross_entropy:交叉熵损失函数(Cross_entropy loss)
1.Cross_entropy公式及导数推导损失函数: a=σ(z), where z=wx+b利用SGD等算法优化损失函数,通过梯度下降法改变参数从而最小化损失函数: 对两个参数权重和偏置进行求偏导: 推导过程如下(关于偏置的推导是一样的): Note:这个推导中利用了sigmoid激活函数求导,才化简成最后的结果的。sigmoid求导详解2.分析交叉熵...原创 2018-08-27 16:29:41 · 18463 阅读 · 0 评论 -
【深度学习】1*1卷积核
1×1的卷积核卷积核在CNN中经常被用到,一般常见的是3×3的或者5×5的,见下图,这里不多赘述 那么1×1的卷积核,就像上面那样。 一般1×1的卷积核本质上并没有对图像做什么聚合操作,以为就是同一个ww去乘以原图像上的每一个像素点,相当于做了一个scaling 1×1卷积核最初是在Network in Network这个网络结构中提出来的。它用了比AlexNet更少的参数,达...转载 2018-06-07 13:22:46 · 4522 阅读 · 0 评论 -
【深度学习】:回归 & 分类任务的Loss函数分析
L1 & L2 loss代码import tensorflow as tfimport matplotlib.pyplot as pltsess = tf.Session()x_val = tf.linspace(-1.,-1.,500)target = tf.constant(0.)#计算L2_lossl2_y_val = tf.square(target - ...原创 2018-07-03 22:12:01 · 9159 阅读 · 0 评论 -
【深度学习】适应于不同任务的不同种类的卷积操作
CNN中千奇百怪的卷积方式大汇总 摘要: LeNet:最早使用stack单卷积+单池化结构的方式,卷积层来做特征提取,池化来做空间下采样。AlexNet:后来发现单卷积提取到的特征不是很丰富,于是开始stack多卷积+单池化的结构。VGG( Very Deep Convolutional Netw …1.原始版本最早的卷积方式还没有任何骚套路,那就也没什么好说的了。见下图...转载 2018-08-02 16:35:06 · 1167 阅读 · 0 评论 -
【分类】在分类中如何处理训练集中不平衡问题
原文链接:http://blog.csdn.net/heyongluoyao8/article/details/49408131在分类中如何处理训练集中不平衡问题 在很多机器学习任务中,训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡,为了使得学习达到更好的效果,因此需要解...转载 2018-08-16 14:49:14 · 1330 阅读 · 0 评论 -
详解机器学习中的梯度消失、爆炸原因及其解决方法
原文链接: https://blog.csdn.net/qq_25737169/article/details/78847691本文主要深入介绍深度学习中的梯度消失和梯度爆炸的问题以及解决方案。本文分为三部分,第一部分主要直观的介绍深度学习中为什么使用梯度更新,第二部分主要介绍深度学习中梯度消失及爆炸的原因,第三部分对提出梯度消失及爆炸的解决方案。有基础的同鞋可以跳着阅读。 其中,梯度消...转载 2018-08-23 20:14:22 · 504 阅读 · 0 评论