关闭

聊一聊深度学习的weight initialization

转载自:https://zhuanlan.zhihu.com/p/25110150 TLDR (or the take-away) Weight Initialization matters!!! 深度学习中的weight initialization对模型收敛速度和模型质量有重要影响! 在ReLU activation function中推荐使用Xavier Initi...
阅读(118) 评论(0)

聊一聊深度学习的activation function

转载自:https://zhuanlan.zhihu.com/p/25110450 TLDR (or the take-away) 优先使用ReLU (Rectified Linear Unit) 函数作为神经元的activation function: 背景 深度学习的基本原理是基于人工神经网络,信号从一个神经元进入,经过非线性的activation function,传入到...
阅读(119) 评论(0)

卷积神经网络(cnn)的体系结构

译者注,本篇文章对卷积神经网络有很好的讲解,其内容有相较原文有部分增加与补充,阅读原文请点击这里 原作者的文章其实更利于读者对卷积本身的理解,但是实际上作者对卷积的现实意义的理解并没有解释的十分清楚,甚至可能不利于堵着的理解,也正因为如此我在翻译过程中可能对原文进行了比较大的改动,希望这对你有帮助. 实际上上卷积神经网络是来自神经学的研究,其计算过程实际上模拟了视觉神经系统的运算过程.这一部分内容其翻阅其他文章. TensorFlow中该部分的内容请参考我的博客:卷积函数 和 池化函数,...
阅读(787) 评论(0)

神经网络为什么要归一化

作者:梁小h 转载自 http://nnetinfo.com/nninfo/showText.jsp?id=37 ========================这里是分割线============================ 1.数值问题。        无容置疑,归一化的确可以避免一些不必要的数值问题。输入变量的数量级未致于会引起数值问题吧,但其实要引起也...
阅读(1175) 评论(0)

梯度下降与delta法则

delta法则 尽管当训练样例线性可分时,感知器法则可以成功地找到一个权向量,但如果样例不是线性可分时它将不能收敛。 因此,人们设计了另一个训练法则来克服这个不足,称为 delta 法则(delta rule)。如果训练样本不是线性可分的,那么 delta 法则会收敛到目标概念的最佳 近似。  delta 法则的关键思想是使用梯度下降(gradient descent)来搜索可能权向...
阅读(1150) 评论(0)

一文弄懂神经网络中的反向传播法

最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其实是神经网络的基础了,但是很多人在学的时候总是会遇到一些问题,或者看到大篇的公式觉得好像很难就退缩了,其实不难,就是一个链式求导法则反复用。如果...
阅读(1153) 评论(0)
    个人资料
    • 访问:252981次
    • 积分:3064
    • 等级:
    • 排名:第11855名
    • 原创:93篇
    • 转载:20篇
    • 译文:2篇
    • 评论:35条
    博客专栏
    最新评论