深度学习
August-us
似春起之苗,不见其增,日有所长
展开
-
激活函数发展的新里程——EvoNorms
激活函数发展的新里程——EvoNormsEvoNorm-B0pytorch实现EvoNorms-Spytorch实现 之所以把这个函数称为激活函数发展的新里程,我的理由就是给人们提供了一种新视角,甚至说打破了之前的固有思维。神经网络为了更加容易训练,提出了Normalization,这种思路取得的成功,使得现在的神经网络越来越离不开归一化。之前写过一篇关于Normalization的文章,是站在框架的角度去写的,有兴趣可以阅读一下,也便于对本文理解深刻。 随着网络的发展,归一化通常和激活函数都是在一原创 2020-06-06 11:02:36 · 24119 阅读 · 0 评论 -
激活函数Swish
激活函数Swish系列文章: Swish函数先对来说是比较新的一些激活函数,算是由之前的激活函数复合而成出来的。也是由Google提出的,毕竟资力雄厚,承担的起搜索的任务。而且这个算法感觉曝光率还算比较高,就在这里整理一下,同时后面的文章也会再次提到这个函数。 对前面的激活函数有了一定的基础之后,理解Swish激活就容易很多了,Swish函数的表达式是f(x)=x⋅σ(x)f(x)=x·\sigma(x)f(x)=x⋅σ(x),σ(x)\sigma(x)σ(x)就是sigmoid函数。因为sigmo原创 2020-05-21 18:36:23 · 37244 阅读 · 0 评论 -
视觉问答综述(VQA Datasets Alogritgms and Future Challenge)
视觉问答领域中的常用方法原创 2020-05-15 11:17:47 · 25015 阅读 · 0 评论 -
视觉问答综述(VQA Datasets Alogritgms and Future Challenge)
视觉问答领域中的数据和评价指标视觉问答简介数据集特点DAQUAR(DAtaset for QUestion Answering on Real-world images)COCO-QAVQA DatasetFreestyle Multilingual Image Quenstion Answering(FM-IQA)Visual GenomeVisual7WSHAPES评价指标准确率Wu-Palmer Similarity (WUPS)共识评价手动评估 此文章仅作为交流讨论之用,文章中如果有我理解不到位原创 2020-05-13 17:53:14 · 26034 阅读 · 3 评论 -
深度学习中的Normalization
深度学习的话尤其是在CV上都需要对数据做归一化,因为深度神经网络主要就是为了学习训练数据的分布,并在测试集上达到很好的泛化效果,但是如果我们每一个batch输入的数据都具有不同的分布,显然会给网络的训练带来困难。另一方面,数据经过一层层网络计算后,其数据分布也在发生着变化,此现象称为Internal Covariate Shift...原创 2020-04-30 18:46:29 · 27038 阅读 · 0 评论 -
L1和L2正则化(regularization)
L1和L2正则化 理论上来说,只要参数足够多,而且参数之间的关系足够复杂,模型就可以拟合任意的函数。如果连噪声也都拟合了,这就是过拟合。事实上,我们在学习的时候,需要学习的是数据的普遍特征,但是除了普遍特征之外还存在一些少量数据独有的特征,这个特征,我们倾向称之为噪声。 过拟合的具体表现就不细谈了,可以看到根本的原因就是建立的模型过于复杂了,我们想要让这个模型简单点,拟合的函数简单点,这个...原创 2020-04-07 09:54:24 · 23253 阅读 · 6 评论 -
叉熵损失函数(Cross Entropy)
叉熵损失函数(Cross Entropy) 我们在逻辑回归算法中引入了交叉熵函数,但是上一次,我并没有对交叉熵损失函数做一个详细的解释。这里就补上。损失函数又叫做误差函数,用来衡量算法的运行情况.在分类中,都是和分类错误的数量正相关的,分类错误越多,损失也就越大。 我们在逻辑回归中引出,交叉熵,当时说的是如果分错一个类别,就会产生损失。J(θ)=y^lny+(1−y^)ln(1−y)J(θ...原创 2020-03-25 08:25:43 · 25162 阅读 · 0 评论 -
逻辑回归(Logistic Regression)
逻辑回归(Logistic Regression) 逻辑回归(Logistic Regression)大家千万不要被名字所迷惑了,这不是一个回归算法,而是一个二分类问题的分类算法。二分类的目标一般就是对是和不是的区分。 我们很容易想到,可以根据概率统计以及贝叶斯统计的知识。我们假设它是(某个物体),然后计算一个它是的概率,如果这个概率大于它不是(某个物体),我们就判定它是。反之则判定它不是...原创 2020-03-23 14:54:39 · 24970 阅读 · 0 评论 -
激活函数maxout
激活函数maxout系列文章: maxout函数相对于其他的激活函数有很大的区别,可以看做是在神经网络中激活函数的地方加入一个激活函数层。maxout可以看做是一个可学习的分段线性函数,因为可学习所以是需要参数的,而且参数是可以通过反向传播来学习的。因为参数量的增大,势必导致计算量的增大。 传统的神经网络从第i层输入到第i+1层,只需要训练一组权重参数,这些参数决定了上一层输入到到达这一层...原创 2020-03-18 19:56:22 · 41637 阅读 · 0 评论 -
激活函数ReLU
激活函数ReLUReLUPReLU(Parametric)E(Exponential)LU系列文章:ReLU Relu(Rectified Linear Unit)函数也可谓是一个里程碑式的激活函数。我们之前已经谈到过sigmoid函数和tanh函数的缺点,我们接下来就看relu如何回避这些不利之处,同时又会带来什么新的问题。 先看relu的函数表达式,relu(x)=max(x,0)r...原创 2020-03-18 19:55:16 · 44217 阅读 · 0 评论 -
激活函数Tanh
激活函数Tanh系列文章: Tanh的诞生比Sigmoid晚一些,sigmoid函数我们提到过有一个缺点就是输出不以0为中心,使得收敛变慢的问题。而Tanh则就是解决了这个问题。Tanh就是双曲正切函数。等于双曲余弦除双曲正弦。函数表达式和图像见下图。这个函数是一个奇函数。 对tanh函数求导需要一定的数学基础,这里直接给出结果。tanh′(x)=1−tanh2(x)tanh'(x)=...原创 2020-03-18 19:54:46 · 95165 阅读 · 0 评论 -
激活函数Sigmoid
激活函数Sigmoid系列文章: 上一节激活函数中已经讨论了激活函数的重要性,和大致发展路径。本文直接讨论SIgmoid激活函数,这是比较早的激活函数了,使用也非常广泛,这个函数又叫Logistic函数,因为这个激活函数和逻辑回归的关系式非常之密切的。 函数的形式是f(x)=11−e−xf(x)=\frac{1}{1-e^{-x}}f(x)=1−e−x1,对函数的值域做个分析就知道函数的...原创 2020-03-18 19:53:54 · 45760 阅读 · 1 评论 -
神经网络之激活函数
神经网络中的激活函数系列文章: 激活函数是神经网络中非常重要的东西,作用不亚于卷积。激活函数是为了模拟神经元的激活和抑制状态的一个组件,自然界的神经活动都是通过一部分神经元的激活,一部分神经元受到抑制而实现的,同时激活的神经元也会在一定条件抑制,抑制也会转换为激活,这种状态之间的切换,在宏观上就呈现了不同的神经活动。 但是卷积神经网络中的激活函数作用不止于此,如果神经网络中只有卷积层,我们...原创 2020-03-18 19:52:57 · 39519 阅读 · 0 评论 -
空洞(扩张dilated)卷积
膨胀卷积 pass原创 2020-03-16 17:09:54 · 38009 阅读 · 0 评论 -
转置卷积详解
转置卷积详解 前面文章对卷积做了讲解,感觉既然重新整理,就将系列概念整体做个梳理,也算是将自己知道的所有东西拿来献丑把。 转置卷积(Transposed Convolution)是后来的叫法,一开始大家都是称逆卷积/反卷积(Deconvolution),这个概念是在图像分割任务中被提出来的,图像分割需要逐像素的操作,对每一个像素做一个分割,将其归类到不同的物体当中。 这个任务大家很自然...原创 2020-03-14 11:53:18 · 25664 阅读 · 0 评论 -
卷积实现之im2col算法
卷积详解之im2col算法原创 2020-03-09 11:53:54 · 31910 阅读 · 2 评论 -
卷积的实现原理
卷积的实现原理 我前面的一篇文章中,卷积操作的计算量分析中,引用了矩阵相乘来概括卷积的计算量,这样做确实是有道理的,因为在卷积的实现中的确是通过矩阵相乘来加速卷积的计算。但是我在那篇文章只是简单的通过矩阵相乘来简单的分析了一下维度信息,事实上,各种框架的实现也并不一定符合我的分析,但是殊途同归。 本文将为大家耐心整理了一下具体的实现(吐槽一下干这件事确实花了我相当多的功夫,因为网上写的东西...原创 2020-03-09 11:53:15 · 29319 阅读 · 1 评论 -
卷积操作的参数量和FLOPs
卷积操作的参数量和FLOPs 这里首先需要辨析一个概念就是FLOPs和FLOPS可以看到简写的差别仅仅是一个字母大小写的区别。 FLOPS(floating-point operations per second),这个缩写长这个样子确实也很奇怪,大致概念就是指每秒浮点数运算次数,最后一个S是秒(second)的缩写,是计组中的概念,用来描述计算机的运算速度。 FLOPs(floati...原创 2020-03-03 17:45:31 · 31105 阅读 · 2 评论 -
混淆矩阵及分类评价指标概念辨析
分类评价指标概念辨析 这些东西其实没什么难的,而且很多人肯定也是很早就接触过了,最大的问题在于时间长了记不住,所以就尽量解释的简单写,用于下次查阅使用。 主要需要理解的就是二分类的指标。 混淆矩阵中,横轴是样本真实标签,决定了样本是正例( P)还是负例(N),纵轴代表模型的估计标签。在辨析各种基本概念的时候,因为这些评价都是和真实标签进行对比。分类分对了就是真(T),分错了就是假(F...原创 2020-03-02 09:34:08 · 24925 阅读 · 1 评论 -
指数滑动平均(Exponential Moving Average)
指数移动平均Exponential Moving Average原创 2020-03-01 11:13:07 · 30077 阅读 · 2 评论