![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
Ivy_daisy
这个作者很懒,什么都没留下…
展开
-
关于深度学习优化器 optimizer 的选择,你需要了解这些
雷锋网按:本文作者杨熹,原文载于作者个人博客,雷锋网(公众号:雷锋网)已获授权在很多机器学习和深度学习的应用中,我们发现用的最多的优化器是 Adam,为什么呢?下面是 TensorFlow 中的优化器:详情参见:https://www.tensorflow.org/api_guides/python/train在 keras 中也有 SGD,RMSprop,Adagrad,Adadelta,Ada...转载 2018-05-09 11:22:18 · 858 阅读 · 0 评论 -
深度学习中常见的优化方法(from SGD to AMSGRAD)和正则化技巧
转载自【泡泡机器人原创专栏】https://mp.weixin.qq.com/s/NmSVXezxsQOZzK8pne3pCw一.优化方法这里介绍的优化方法包括:SGD,两种带动量的SGD,AdaGrad,RMSProp,Adadelta,Adam, AMSGRAD,基本涵盖了常用的一些优化算法。先介绍一下优化方法,这里需要注意一下,在深度学习当中,优化的问题是在于鞍点而不是所谓的局部最小值点,在...转载 2018-05-30 21:42:52 · 2983 阅读 · 1 评论 -
The Activation Function in Deep Learning 浅谈深度学习中的激活函数
原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html版权声明:本文为博主原创文章,未经博主允许不得转载。激活函数的作用首先,激活函数不是真的要去激活什么。在神经网络中,激活函数的作用是能够给神经网络加入一些非线性因素,使得神经网络可以更好地解决较为复杂的问题。比如在下面的这个问题中:如上图(图片来源),在最简单的情况下,数据是线性可分的,只需要一条直...转载 2018-05-29 19:16:54 · 308 阅读 · 0 评论 -
softmax,softmax loss和cross entropy的讲解
转载自: https://blog.csdn.net/u014380165/article/details/77284921这一篇主要介绍全连接层和损失层的内容,算是网络里面比较基础的一块内容。先理清下从全连接层到损失层之间的计算。来看下面这张图,来自参考资料1(自己实在懒得画图了)。这张图的等号左边部分就是全连接层做的事,W是全连接层的参数,我们也称为权值,X是全连接层的输入,也就是特征。从图上...转载 2018-06-03 11:05:04 · 588 阅读 · 0 评论 -
softmax loss对输入的求导推导
转载自: https://blog.csdn.net/u014380165/article/details/79632950我们知道卷积神经网络(CNN)在图像领域的应用已经非常广泛了,一般一个CNN网络主要包含卷积层,池化层(pooling),全连接层,损失层等。虽然现在已经开源了很多深度学习框架(比如MxNet,Caffe等),训练一个模型变得非常简单,但是你对损失函数求梯度是怎么求的真的了解...转载 2018-06-03 11:03:06 · 1237 阅读 · 0 评论 -
AdaGrad - Adaptive Subgradient Methods
AdaGrad - Adaptive Subgradient Methodshttps://cs.stanford.edu/~ppasupat/a9online/1107.htmlAdaGrad is an optimization method that allows different step sizes for different features. It increases the in...转载 2018-05-16 11:14:07 · 933 阅读 · 0 评论 -
Stochastic Gradient Descent vs Batch Gradient Descent vs Mini-batch Gradient Descent
梯度下降是最小化风险函数/损失函数的一种经典常见的方法,下面总结下三种梯度下降算法异同。1、 批量梯度下降算法(Batch gradient descent)以线性回归为例,损失函数为BGD算法核心思想为每次迭代用所有的训练样本来更新Theta,这对于训练样本数m很大的情况是很耗时的。BGD算法表示为 或者表示为 其中X(m*n)为训练样本矩阵,α为学习速率,m为样本数,y(m*1)为样本结...转载 2018-05-16 10:00:31 · 255 阅读 · 0 评论 -
Windows10下python3.5.2+CUDA8.0+TensorFlow安装日记
Windows10 64位下配置TensorFlow with GPU support 安装日记包括Python3.5.2、 Ipython、 Python IDE、CUDA8.0安装、 cuDNN安装、TensorFlow安装原创 2017-04-04 17:37:37 · 4801 阅读 · 2 评论 -
机器学习的Hello Word——Softmax Regression识别手写数字
TensorFlow 核心概念:计算表示为一个有向图(directed graph),或计算图(computation graph)其中每一步运算操作(operation)作为一个节点(node)节点与节点之间的连线成为边(edge)在计算图边中流动(flow)的数据成为张量(tensor)TensorFlow神经网络开发流程:1、定义算法公式,也就是神经网络for原创 2017-04-06 20:43:31 · 704 阅读 · 0 评论 -
面向机器学习专家的 MNIST 高级教程代码
教程链接:面向机器学习专家的 MNIST 高级教程利用CNN卷积神经网络训练MNIST手写字体,mnist手写字体素材为28*28像素的图片,本程序中采用两层卷积神经网络与密集连接层,利用ReLU激活函数与Adam梯度最速下降方法进行训练代码如下:#下载引入数据集from tensorflow.examples.tutorials.mnist import inp转载 2017-04-22 16:07:49 · 655 阅读 · 0 评论 -
tensorflow中slim模块api介绍
博客原文:https://blog.csdn.net/guvcolie/article/details/77686555最近需要使用slim模块,先把slim的github readme放在这里,后续会一点一点翻译github:https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/slimTensorFlow...转载 2018-04-01 10:56:10 · 978 阅读 · 1 评论 -
交叉熵代价函数(损失函数)及其求导推导
前言交叉熵损失函数交叉熵损失函数的求导前言说明:本文只讨论Logistic回归的交叉熵,对Softmax回归的交叉熵类似。 首先,我们二话不说,先放出交叉熵的公式: J(θ)=−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i))),J(θ)=−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i))),以及J(θ...转载 2018-05-04 13:29:12 · 984 阅读 · 0 评论 -
RNN以及LSTM的介绍和公式梳理
(转载)前言好久没用正儿八经地写博客了,csdn居然也有了markdown的编辑器了,最近花了不少时间看RNN以及LSTM的论文,在组内『夜校』分享过了,再在这里总结一下发出来吧,按照我讲解的思路,理解RNN以及LSTM的算法流程并推导一遍应该是没有问题的。RNN最近做出了很多非常漂亮的成果,比如Alex Graves的手写文字生成、名声大振的『根据图片生成描述文字』、输出类似训练语料的文字等应用...转载 2018-05-04 13:56:26 · 206 阅读 · 0 评论 -
反向传播神经网络 BP
我一直在找一份简明的神经网络入门,然而在中文圈里并没有找到。直到我看到了这份162行的Python实现,以及对应的油管视频之后,我才觉得这就是我需要的极简入门资料。这份极简入门笔记不需要突触的图片做装饰,也不需要赘述神经网络的发展历史;要推导有推导,要代码有代码,关键是,它们还对得上。对于欠缺的背景知识,利用斯坦福大学的神经网络wiki进行了补全。单个神经元神经网络是多个“神经元”(感知机)的带权...转载 2018-05-09 11:25:27 · 446 阅读 · 0 评论 -
几种常见的激活函数
1. sigmod函数函数公式和图表如下图 在sigmod函数中我们可以看到,其输出是在(0,1)这个开区间内,这点很有意思,可以联想到概率,但是严格意义上讲,不要当成概率。sigmod函数曾经是比较流行的,它可以想象成一个神经元的放电率,在中间斜率比较大的地方是神经元的敏感区,在两边斜率很平缓的地方是神经元的抑制区。当然,流行也是曾经流行,这说明函数本身是有一定的缺陷的。1) 当输入稍微远离了坐...转载 2018-05-09 11:23:46 · 1888 阅读 · 0 评论 -
深度学习的activation function
转载自:https://zhuanlan.zhihu.com/p/25110450TLDR (or the take-away)优先使用ReLU (Rectified Linear Unit) 函数作为神经元的activation function:背景深度学习的基本原理是基于人工神经网络,信号从一个神经元进入,经过非线性的activation function,传入到下一层神经元;再经过该层神经...转载 2018-05-31 19:16:07 · 418 阅读 · 0 评论