【深度学习】算法与原理
【深度学习】算法与原理
Font Tian
某公司山东分公司研发中心主管。目前主要工作为ABC融合,主要业余目标为发论文,玩开源。
展开
-
神经网络为什么要归一化
作者:梁小h 转载自 http://nnetinfo.com/nninfo/showText.jsp?id=37========================这里是分割线============================1.数值问题。 无容置疑,归一化的确可以避免一些不必要的数值问题。输入变量的数量级未致于会引起数值问题吧,但其实要引起也转载 2017-07-01 14:56:05 · 10662 阅读 · 0 评论 -
梯度下降与delta法则
delta法则尽管当训练样例线性可分时,感知器法则可以成功地找到一个权向量,但如果样例不是线性可分时它将不能收敛。因此,人们设计了另一个训练法则来克服这个不足,称为 delta 法则(delta rule)。如果训练样本不是线性可分的,那么 delta 法则会收敛到目标概念的最佳 近似。 delta 法则的关键思想是使用梯度下降(gradient descent)来搜索可能权向转载 2017-06-29 13:41:01 · 2487 阅读 · 0 评论 -
一文弄懂神经网络中的反向传播法
最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其实是神经网络的基础了,但是很多人在学的时候总是会遇到一些问题,或者看到大篇的公式觉得好像很难就退缩了,其实不难,就是一个链式求导法则反复用。如果转载 2017-06-29 11:25:28 · 2265 阅读 · 1 评论 -
卷积神经网络(cnn)的体系结构
译者注内容有部分增加与补充,阅读原文请点击这里原作者的文章其实更利于读者对卷积本身的理解,但是实际上作者对卷积的现实意义的理解并没有解释的十分清楚,甚至可能不利于堵着的理解,也正因为如此我在翻译过程中可能对原文进行了比较大的改动,希望这对你有帮助.实际上上卷积神经网络是来自神经学的研究,其计算过程实际上模拟了视觉神经系统的运算过程.这一部分内容其翻阅其他文章....翻译 2017-08-10 21:49:01 · 5268 阅读 · 1 评论 -
聊一聊深度学习的activation function
转载自:https://zhuanlan.zhihu.com/p/25110450TLDR (or the take-away)优先使用ReLU (Rectified Linear Unit) 函数作为神经元的activation function:背景深度学习的基本原理是基于人工神经网络,信号从一个神经元进入,经过非线性的activation function,传入到转载 2017-09-13 20:16:57 · 1563 阅读 · 0 评论 -
聊一聊深度学习的weight initialization
转载自:https://zhuanlan.zhihu.com/p/25110150TLDR (or the take-away)Weight Initialization matters!!! 深度学习中的weight initialization对模型收敛速度和模型质量有重要影响!在ReLU activation function中推荐使用Xavier Initi转载 2017-09-13 20:19:19 · 2596 阅读 · 0 评论 -
Google提出的新型激活函数:Swish
简介Swish是Google在10月16号提出的一种新型激活函数,其原始公式为:f(x)=x * sigmod(x),变形Swish-B激活函数的公式则为f(x)=x * sigmod(b * x),其拥有不饱和,光滑,非单调性的特征,而Google在论文中的多项测试表明Swish以及Swish-B激活函数的性能即佳,在不同的数据集上都表现出了要优于当前最佳激活函数的性能.论文地址:htt...原创 2017-11-26 11:35:15 · 12675 阅读 · 2 评论