深度学习: 相关知识点细节
关于深度学习的一些知识点细节.
Doctor_Wu_
这个作者很懒,什么都没留下…
展开
-
yolov系列论文分析
博客1博客2原创 2021-02-24 17:37:16 · 194 阅读 · 0 评论 -
一个batch_size的数据如何做反向传播
一个batch_size的数据如何做反向传播对于一个batch_size内部的数据,更新权重我们是这样做的:假如我们在训练的时候设置的batch_size的大小为4,也就是一个batch_size有4张样本图片数据然后开始进行训练,输入一个batch_size:首先batch_size中的第一张图片数据我们反向传播求导求梯度 ∂1,这个得到的梯度∂1可看做是得到一个参数量∂1,不过这个参数量先暂存起来,实际的原始参数没有变化(即暂时没有进行更新),然后使用原始的参数更新一次第二张图片数据,得到第二个参原创 2021-01-17 17:27:44 · 2143 阅读 · 1 评论 -
为什么L1和L2正则化可防止过拟合
线性模型常用来处理回归和分类任务,为了防止模型处于过拟合状态,需要用L1正则化和L2正则化降低模型的复杂度,很多线性回归模型正则化的文章会提到L1是通过稀疏化参数来降低复杂度,L2是通过减小参数值的大小来降低复杂度。文章的内容总结了网上各种版本的解释:1、梯度角度分析2、优化角度分析3、先验概率角度分析4、知乎点赞最多的图形角度分析5、限制条件角度分析6、PRML的图形角度分析1. 梯度角度分析1)L1正则化L1正则化的损失函数为:上式可知,当w大于0时,更新的参数w变小;当w小于0原创 2020-11-25 16:42:43 · 619 阅读 · 0 评论 -
深度学习中,偏置(bias)在什么情况可以不要?
1、深度学习偏置的作用?x1w1 + x2w2 +…+xnwn > T(T为一个阈值),而T越大,想激活这个感知器的难度越大,人工选择一个阈值并不是一个好的方法,因为样本那么多,我不可能手动选择一个阈值,使得模型整体表现最佳,那么我们可以使得T变成可学习的,这样一来,T会自动学习到一个数,使得模型的整体表现最佳。当把T移动到左边,它就成了偏置,x1w1 + x2w2 +…+xnwn - T> 0 ----->x*w +b > 0,总之,偏置的大小控制着激活这个感知器的难易程度原创 2020-11-19 17:45:02 · 4132 阅读 · 1 评论 -
神经网络相关模型
1、逻辑回归模型Logistic Regression模型:y’ = σ(WTx+b),记住使用的激活函数σ( )是sigmoid函数。损失函数:L(y’,y) = -[y·log(y’)+(1-y)·log(1-y’)]衡量预测值y’与真实值y的差距,越小越好。代价函数:损失均值,J(W,b) = 1/m·Σmi=1L(y’(i),y(i)),是W和b的函数,学习的过程就是寻找W和b使得J(W,b)最小化的过程。求最小值的方法是用梯度下降法。训练模型的步骤:初始化W和b指定learning r原创 2020-11-13 10:39:04 · 335 阅读 · 0 评论 -
区分点2:深度学习各网络层顺序大致情况
Conv / FC =》Batch Normalization =》ReLu(池化) =》activation(激活层) =》dropout =》Conv / FC =》。。。。。。原创 2020-10-23 10:58:25 · 917 阅读 · 0 评论 -
区分点1 — Sigmoid 和 Softmax 区别
sigmoid函数(也叫逻辑斯谛函数):其实逻辑斯谛函数也就是经常说的sigmoid函数,它的几何形状也就是一条sigmoid曲线。logistic曲线如下:softmax函数的定义:softmax是logistic函数的一般化,它将任意实数的k维向量z压缩(映射)为范围(0,1)内的实数的k维向量矩阵Z,向量Z中的所有元素的总和为1。这句话既表明了softmax函数与logistic函数的关系,也同时阐述了softmax函数的本质就是将一个K维的任意实数向量压缩(映射)成另一个K维的实数向量,其原创 2020-10-23 10:36:20 · 837 阅读 · 0 评论