机器学习
Ivy_daisy
这个作者很懒,什么都没留下…
展开
-
关于深度学习优化器 optimizer 的选择,你需要了解这些
雷锋网按:本文作者杨熹,原文载于作者个人博客,雷锋网(公众号:雷锋网)已获授权在很多机器学习和深度学习的应用中,我们发现用的最多的优化器是 Adam,为什么呢?下面是 TensorFlow 中的优化器:详情参见:https://www.tensorflow.org/api_guides/python/train在 keras 中也有 SGD,RMSprop,Adagrad,Adadelta,Ada...转载 2018-05-09 11:22:18 · 876 阅读 · 0 评论 -
深度学习中常见的优化方法(from SGD to AMSGRAD)和正则化技巧
转载自【泡泡机器人原创专栏】https://mp.weixin.qq.com/s/NmSVXezxsQOZzK8pne3pCw一.优化方法这里介绍的优化方法包括:SGD,两种带动量的SGD,AdaGrad,RMSProp,Adadelta,Adam, AMSGRAD,基本涵盖了常用的一些优化算法。先介绍一下优化方法,这里需要注意一下,在深度学习当中,优化的问题是在于鞍点而不是所谓的局部最小值点,在...转载 2018-05-30 21:42:52 · 3059 阅读 · 1 评论 -
The Activation Function in Deep Learning 浅谈深度学习中的激活函数
原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html版权声明:本文为博主原创文章,未经博主允许不得转载。激活函数的作用首先,激活函数不是真的要去激活什么。在神经网络中,激活函数的作用是能够给神经网络加入一些非线性因素,使得神经网络可以更好地解决较为复杂的问题。比如在下面的这个问题中:如上图(图片来源),在最简单的情况下,数据是线性可分的,只需要一条直...转载 2018-05-29 19:16:54 · 320 阅读 · 0 评论 -
softmax,softmax loss和cross entropy的讲解
转载自: https://blog.csdn.net/u014380165/article/details/77284921这一篇主要介绍全连接层和损失层的内容,算是网络里面比较基础的一块内容。先理清下从全连接层到损失层之间的计算。来看下面这张图,来自参考资料1(自己实在懒得画图了)。这张图的等号左边部分就是全连接层做的事,W是全连接层的参数,我们也称为权值,X是全连接层的输入,也就是特征。从图上...转载 2018-06-03 11:05:04 · 625 阅读 · 0 评论 -
softmax loss对输入的求导推导
转载自: https://blog.csdn.net/u014380165/article/details/79632950我们知道卷积神经网络(CNN)在图像领域的应用已经非常广泛了,一般一个CNN网络主要包含卷积层,池化层(pooling),全连接层,损失层等。虽然现在已经开源了很多深度学习框架(比如MxNet,Caffe等),训练一个模型变得非常简单,但是你对损失函数求梯度是怎么求的真的了解...转载 2018-06-03 11:03:06 · 1288 阅读 · 0 评论 -
AdaGrad - Adaptive Subgradient Methods
AdaGrad - Adaptive Subgradient Methodshttps://cs.stanford.edu/~ppasupat/a9online/1107.htmlAdaGrad is an optimization method that allows different step sizes for different features. It increases the in...转载 2018-05-16 11:14:07 · 952 阅读 · 0 评论 -
Stochastic Gradient Descent vs Batch Gradient Descent vs Mini-batch Gradient Descent
梯度下降是最小化风险函数/损失函数的一种经典常见的方法,下面总结下三种梯度下降算法异同。1、 批量梯度下降算法(Batch gradient descent)以线性回归为例,损失函数为BGD算法核心思想为每次迭代用所有的训练样本来更新Theta,这对于训练样本数m很大的情况是很耗时的。BGD算法表示为 或者表示为 其中X(m*n)为训练样本矩阵,α为学习速率,m为样本数,y(m*1)为样本结...转载 2018-05-16 10:00:31 · 288 阅读 · 0 评论 -
面向机器学习专家的 MNIST 高级教程代码
教程链接:面向机器学习专家的 MNIST 高级教程利用CNN卷积神经网络训练MNIST手写字体,mnist手写字体素材为28*28像素的图片,本程序中采用两层卷积神经网络与密集连接层,利用ReLU激活函数与Adam梯度最速下降方法进行训练代码如下:#下载引入数据集from tensorflow.examples.tutorials.mnist import inp转载 2017-04-22 16:07:49 · 691 阅读 · 0 评论 -
Protobuf学习 - 入门
Protobuf学习 - 入门 古之立大事者,不惟有超世之才,亦必有坚忍不拔之志 -- 苏轼·《晁错论》 从公司的项目源码中看到了这个东西,觉得挺好用的,写篇博客做下小总结。下面的操作以C++为编程语言,protoc的版本为libprotoc 3.2.0。一、Protobuf? 1. 是什么? Google Protocol Buffer(...翻译 2018-03-30 15:32:34 · 226 阅读 · 0 评论 -
高斯混合模型(GMM)及其EM算法的理解
https://blog.csdn.net/jinping_shi/article/details/59613054高斯混合模型(Gaussian Mixed Model)指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况(或者是同一类分布但参数不一样,或者是不同类型的分布,比如正态分布和伯努利分布)。如图1,图中的点在我们...转载 2018-04-05 17:45:28 · 748 阅读 · 0 评论 -
交叉熵代价函数(损失函数)及其求导推导
前言交叉熵损失函数交叉熵损失函数的求导前言说明:本文只讨论Logistic回归的交叉熵,对Softmax回归的交叉熵类似。 首先,我们二话不说,先放出交叉熵的公式: J(θ)=−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i))),J(θ)=−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i))),以及J(θ...转载 2018-05-04 13:29:12 · 1007 阅读 · 0 评论 -
隐马尔可夫模型(HMM)攻略
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。 考虑下面交通灯的例子,一个序...转载 2018-05-04 13:49:45 · 337 阅读 · 0 评论 -
反向传播神经网络 BP
我一直在找一份简明的神经网络入门,然而在中文圈里并没有找到。直到我看到了这份162行的Python实现,以及对应的油管视频之后,我才觉得这就是我需要的极简入门资料。这份极简入门笔记不需要突触的图片做装饰,也不需要赘述神经网络的发展历史;要推导有推导,要代码有代码,关键是,它们还对得上。对于欠缺的背景知识,利用斯坦福大学的神经网络wiki进行了补全。单个神经元神经网络是多个“神经元”(感知机)的带权...转载 2018-05-09 11:25:27 · 469 阅读 · 0 评论 -
几种常见的激活函数
1. sigmod函数函数公式和图表如下图 在sigmod函数中我们可以看到,其输出是在(0,1)这个开区间内,这点很有意思,可以联想到概率,但是严格意义上讲,不要当成概率。sigmod函数曾经是比较流行的,它可以想象成一个神经元的放电率,在中间斜率比较大的地方是神经元的敏感区,在两边斜率很平缓的地方是神经元的抑制区。当然,流行也是曾经流行,这说明函数本身是有一定的缺陷的。1) 当输入稍微远离了坐...转载 2018-05-09 11:23:46 · 1917 阅读 · 0 评论 -
深度学习的activation function
转载自:https://zhuanlan.zhihu.com/p/25110450TLDR (or the take-away)优先使用ReLU (Rectified Linear Unit) 函数作为神经元的activation function:背景深度学习的基本原理是基于人工神经网络,信号从一个神经元进入,经过非线性的activation function,传入到下一层神经元;再经过该层神经...转载 2018-05-31 19:16:07 · 441 阅读 · 0 评论