深度学习知识点
文章平均质量分 74
是不是云
这个作者很懒,什么都没留下…
展开
-
学习率知识点
学习率知识点学习率知识点学习率调整方法warm up学习率的影响学习率知识点学习率调整方法通常一开始的学习率很大,后期的学习率变小,需要调整学习率。1)等间隔调整学习率每隔一定的间隔,就按系数减小2)多个间隔调整学习率自己设置需要调整的间隔,各间隔的系数3)按指数衰减学习率γ是指数的底,通常设置为接近1的数,注意,是每个epoch都乘以γ的指数。4)余弦周期调整学习率T_max 是下降周期,经过该个周期,学习率从最大下降到最小,再经过该个周期,又上升到最大warm upwar原创 2021-08-20 21:01:56 · 449 阅读 · 0 评论 -
优化函数知识点
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档优化函数优化函数BGD批量梯度下降法SGD随机梯度下降法mini-BGD小批次梯度下降法使用梯度下降及其变体时面临的挑战momentum动量梯度下降法NAG(Nesterov accelerated gradient)自适应学习率优化算法AdaGradRMSProp(均方差传播)Adam综合batch_size的影响在合理范围内,增大Batch_Size有何好处?盲目增大 Batch_Size 有何坏处?优化函数优化算法分为两大类1原创 2021-08-20 20:59:10 · 877 阅读 · 0 评论 -
Dropout
DropoutDropout目的方法这样是否改变了输出的分布?怎么解决的?那dropout为什么能缓解过拟合?可以换一个角度解释吗?一般dropout中的超参数p选为多少?为什么?dropout还有什么作用?dropout有什么缺点?为什么很多人觉得BN层可以取代dropout?Dropout目的减少特征检测器(隐层节点)间的相互作用,检测器相互作用是指某些检测器依赖其他检测器才能发挥作用方法以概率p来失活(pytorch)部分神经元,只用在训练时,测试时全部神经元都要使用,不会太依赖某些局部原创 2021-08-20 20:43:49 · 391 阅读 · 0 评论 -
归一化和标准化
归一化和标准化归一化和标准化归一化标准化Batch Normalization原理步骤训练与测试时的区别优点缺点注意BN与Dropout影响各种标准化区别归一化和标准化最小最大归一化(减最小值,除最大最小的差值)和均值方差归一化(减均值,除方差)作用1)统一量纲,加快模型收敛速度,(不做归一化,梯度下降时,各数据对模型的贡献不一致,导致模型不稳定,收敛性不好,错过最优解)2)提高模型精度归一化一般用于线性模型适用范围:对输出结果范围有要求的,数据较为稳定,不存在极端的最大最小值缺点:当原创 2021-08-20 20:40:07 · 920 阅读 · 0 评论 -
L1、L2正则化
L1、L2正则化L1、L2正则化L1、L2正则化正则化:在优化目标函数时,在目标函数后添加的一个惩罚作用1)防止过拟合;2)提高模型泛化能力;3)限制模型的复杂度,使得模型在复杂度和性能达到平衡从等值线的角度解释,如果只有两个参数w1、w2。L1表示的w有效区域是一个菱形。损失函数(假设为平方和)的等值线则表示为椭圆。L2表示为圆形。等值线与L1相交时,很容易位于菱形顶点,即w1等于0或者w2等于0(产生稀疏矩阵)。与L2相交则在圆上任意一点,所以不具备稀疏性。L1正则:α乘以绝对值原创 2021-08-20 20:30:43 · 355 阅读 · 0 评论 -
梯度消失和梯度爆炸
梯度消失和梯度爆炸梯度消失和梯度爆炸梯度消失和梯度爆炸梯度爆炸:在反向传播过程中需要对激活函数进行求导,如果导数大于1,那么随着网络层数的增加梯度更新将会朝着指数爆炸的方式增加,最后到输入时,梯度将会非常大,这就是梯度爆炸。梯度消失:同样如果导数小于1,那么随着网络层数的增加梯度更新信息会朝着指数衰减的方式减少,最后到输入时,梯度将会非常小,这就是梯度消失。因此,根本原因在于反向传播训练法则,属于先天不足。解决方案1)好的参数初始化方式;2)非饱和的激活函数;3)BN批量规范化(可以将集中原创 2021-08-20 20:19:44 · 156 阅读 · 0 评论 -
Loss异常
Loss异常Loss异常loss下降本来平稳,突然出现波动出现NaNLoss一直不下降Loss异常loss下降本来平稳,突然出现波动可能是label出现错误,本来预测正确,却判断为错误,就会出现波动解决:1)在loss不再下降的时候降低学习率;2)每个epoch训练之前,对数据进行重新打乱,如果你的 batch 的内容和顺序都是固定的,可能造成模型overfit这个顺序;3)各个 batch 的 loss 有不同是正常的,但如果波动太大,可能说明你的各个 batch 不是 homogeneo原创 2021-08-20 20:18:07 · 387 阅读 · 0 评论 -
过拟合与欠拟合
过拟合与欠拟合过拟合与欠拟合过拟合欠拟合过拟合与欠拟合过拟合概念:过拟合是模型参数在拟合过程中出现的问题,由于训练数据包含抽样误差,训练时复杂的模型将抽样误差也考虑在内,将抽样误差也进行了很好的拟合。具体表现:模型在训练集上效果好,在测试集上效果差,即模型泛化能力弱。产生过拟合根本原因:观察值与真实值存在偏差训练样本的获取,本身就是一种抽样,抽样操作就会存在误差,导致选取的样本数据不足以代表预定的分类规则。训练数据太少,导致无法描述问题的真实分布通俗地说,重复实验多次,随机事件的频率近原创 2021-08-20 20:14:13 · 246 阅读 · 0 评论 -
激活函数知识点
激活函数激活函数知识点激活函数作用SigmoidTanhReLuLeaky ReLuReLU6ELU激活函数知识点激活函数作用如果不用激活函数,每一层输出都是上一层的线性函数,就变成了线性模型,表达能力不够。如果引入非线性激活函数的话,加入了非线性因素,神经网络就有意义了,能够去逼近任意函数。Sigmoidg(x)=11+e−xg(x)=\frac{1}{1+e^{-x}}g(x)=1+e−x1优点:提供非线性能力、可以作为输出层,输出概率值,处处连续,便于求导,压缩数据到(0,1)。缺原创 2021-08-20 20:08:37 · 532 阅读 · 0 评论 -
池化知识点
池化池化知识点1.池化的作用2.池化的分类3.池化的反向传播4.全局平均池化5.空间金字塔池化池化知识点1.池化的作用下采样引入非线性因素特征减小、保留主要的特征,减少参数和计算量,达到降维的效果防止过拟合扩大感受野实现平移旋转不变性2.池化的分类最大池化、平均池化、全局平均池化、金字塔池化,、全局加权池化(分组卷积提到)特征提取的误差主要来自两个方面:(1)邻域大小受限造成的估计值方差增大;(2)卷积层参数误差造成估计均值的偏移。平均池化能减小第一种误差(方差增大),更多的原创 2021-08-19 23:09:13 · 783 阅读 · 0 评论 -
卷积知识点
卷积卷积知识点1.什么是卷积2.卷积的特点3.卷积和全连接的区别4.卷积的计算5.感受野6.反卷积(转置卷积)7.空洞卷积8.空间可分离卷积9.深度可分离卷积10.分组卷积11.可变形卷积12. 1*1卷积13. 3D卷积卷积知识点参考文献找不到了,略1.什么是卷积对图像和滤波矩阵(滤波器、卷积核)做内积的操作就是卷积。单次卷积操作就是对应位置的两个元素相乘,之后所有乘积相加。像滑动窗口一样进行。卷积其实在图像处理领域被广泛的应用,像滤波、边缘检测、图片锐化等,都是通过不同的卷积核来实现的。在卷原创 2021-08-19 22:54:22 · 2159 阅读 · 0 评论