DeepLearning
文章平均质量分 78
Alice熹爱学习
做个终身学习者,持续迭代;公众号-极客X养成计划;简书-不会停的蜗牛
展开
-
为什么需要 Mini-batch 梯度下降,及 TensorFlow 应用举例
本文知识点:什么是 mini-batch 梯度下降mini-batch 梯度下降具体算法为什么需要 mini-batch 梯度下降batch, stochastic ,mini batch 梯度下降的比较如何选择 mini batch 的参数 batch size 呢在 TensorFlow 中应用举例之前写过一篇文章: 如何选择优化器 optimizer里面对 ...原创 2018-07-30 06:38:30 · 2628 阅读 · 0 评论 -
梯度消失问题与如何选择激活函数
本文结构:什么是梯度消失?梯度消失有什么影响?是什么原因?解决方案有哪些?如何选择激活函数?1. 什么是梯度消失?梯度消失,常常发生在用基于梯度的方法训练神经网络的过程中。当我们在做反向传播,计算损失函数对权重的梯度时,随着越向后传播,梯度变得越来越小,这就意味着在网络的前面一些层的神经元,会比后面的训练的要慢很多,甚至不会变化。2. 有什么...原创 2018-07-17 00:45:40 · 5597 阅读 · 1 评论 -
cs230 深度学习 Lecture 2 编程作业: Logistic Regression with a Neural Network mindset
本文结构:将 Logistic 表达为 神经网络 的形式构建模型 导入包获得数据并进行预处理: 格式转换,归一化整合模型: A. 构建模型 a. 初始化参数:w 和 b 为 0b. 前向传播:计算当前的损失c. 反向更新:计算当前的梯度B. 梯度更新求模型参数C. 进行预测绘制学习曲线1. 将 Logistic 表达为 神经网络 的形式本文的目的是要...原创 2018-06-27 12:38:01 · 2506 阅读 · 0 评论 -
GAN 的 keras 实现
本文结构:什么是 GAN?优点?keras 例子?什么是 GAN?GAN,全称为 Generative Adversarial Nets,直译为生成式对抗网络,是一种非监督式模型。一种应用是生成在原始数据集中不存在的但是却比较合理的数据,还可以拓展一张图片,生成下一帧影像,由简单几笔生成一幅画:模型:主要有两部分:The Generative Model:通过输入任意随机数据,尝试生成一些真原创 2017-08-23 11:53:09 · 5572 阅读 · 1 评论 -
如何选择优化器 optimizer
在很多机器学习和深度学习的应用中,我们发现用的最多的优化器是 Adam,为什么呢?下面是 TensorFlow 中的优化器, https://www.tensorflow.org/api_guides/python/train 在 keras 中也有 SGD,RMSprop,Adagrad,Adadelta,Adam 等: https://keras.io/optimizers/我们可以发现除原创 2017-06-14 12:17:01 · 44417 阅读 · 10 评论 -
详解循环神经网络(Recurrent Neural Network)
今天的学习资料是这篇文章,写的非常详细,有理论有代码,本文是补充一些小细节,可以二者结合看效果更好: https://zybuluo.com/hanbingtao/note/541458在文末有关于 RNN 的文章汇总,之前写的大多是概览式的模型结构,公式,和一些应用,今天主要放在训练算法的推导。本文结构:模型训练算法基于 RNN 的语言模型例子代码实现1. 模型和全连接网络的区别更原创 2017-06-18 12:18:51 · 8854 阅读 · 1 评论 -
按时间轴简述九大卷积神经网络
1998, Yann LeCun 的 LeNet5图像特征分布在整个图像上 在具有很少参数的多个位置上提取类似特征时,具有可学习的参数的卷积是个比较有效的方法 在没有应用GPU的时候,能够保存参数和计算就成了一个关键优势 LeNet5并没有把每个像素都作为大型多层神经网络的一个输入,因为图像是高度空间相关的,如果用了这种方法,就不能很好地利用相关性LeNet5 的主要特征:CNN 主要用这3原创 2017-06-18 12:18:00 · 4054 阅读 · 1 评论 -
详解 LSTM
今天的内容有:LSTM 思路LSTM 的前向计算LSTM 的反向传播关于调参LSTM长短时记忆网络(Long Short Term Memory Network, LSTM),是一种改进之后的循环神经网络,可以解决RNN无法处理长距离的依赖的问题,目前比较流行。长短时记忆网络的思路:原始 RNN 的隐藏层只有一个状态,即h,它对于短期的输入非常敏感。 再增加一个状态,即c,让它来保存长期原创 2017-06-18 12:17:28 · 6709 阅读 · 0 评论 -
用 LSTM 来做一个分类小问题
用一个简单的例子来看看 LSTM 在 tensorflow 里是如何做分类问题的。这个例子特别简单,就是一个长度为 20 的二进制串,数出其中 1 的个数,简单到用一个 for 就能搞定的事情,来看看 LSTM 是如何做到的。大家可以先在这里停一下,看看你有什么想法呢。import numpy as npfrom random import shuffleinput 一共有 2^20 种组合,就生原创 2017-06-18 12:16:50 · 8628 阅读 · 0 评论 -
用 LSTM 做时间序列预测的一个小例子
问题:航班乘客预测 数据:1949 到 1960 一共 12 年,每年 12 个月的数据,一共 144 个数据,单位是 1000 下载地址 目标:预测国际航班未来 1 个月的乘客数import numpyimport matplotlib.pyplot as pltfrom pandas import read_csvimport mathfrom keras.models impor原创 2017-06-18 12:16:13 · 106365 阅读 · 97 评论 -
什么是 Dropout
为了应对神经网络很容易过拟合的问题,2014年 Hinton 提出了一个神器, Dropout: A Simple Way to Prevent Neural Networks from Overfitting (original paper: http://jmlr.org/papers/v15/srivastava14a.html)实验结果: dropout 是指在深度学习网络的训练过程原创 2017-06-18 12:15:27 · 3503 阅读 · 1 评论 -
seq2seq 入门
本文结构:什么是 seq2seq?Encoder–Decoder 结构?seq2seq 结构?什么是 seq2seq?seq2seq 是一个 Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。这个结构最重要的地方在于输入序列和输原创 2017-06-18 12:14:22 · 14099 阅读 · 0 评论 -
seq2seq 的 keras 实现
上一篇 seq2seq 入门 提到了 cho 和 Sutskever 的两篇论文,今天来看一下如何用 keras 建立 seq2seq。 第一个 LSTM 为 Encoder,只在序列结束时输出一个语义向量,所以其 “return_sequences” 参数设置为 “False”使用 “RepeatVector” 将 Encoder 的输出(最后一个 time step)复制 N 份作为 Deco原创 2017-06-18 12:13:40 · 10339 阅读 · 1 评论 -
深度学习相关最新图书推荐
作者:不会停的蜗牛 | CSDN AI专栏作者 责编:王艺 | CSDN AI编辑/记者 wangyi@csdn.net如果您是初学者,那么您可能会将深度学习与机器学习混为一谈。实际上,机器学习包含深度学习,深度学习只是机器学习的研究领域之一。深度学习是一个交叉学科,涉及到神经网络、人工智能、图建模、最优化理论、模式识别和信号处理等多学科领域知识。硬件计算能力的升级使得深度学习在人们的日常生活中原创 2017-05-01 11:41:00 · 4916 阅读 · 1 评论 -
对比学习用 Keras 搭建 CNN RNN 等常用神经网络
参考: 各模型完整代码 周莫烦的教学网站 这个网站上有很多机器学习相关的教学视频,推荐上去学习学习。Keras 是一个兼容 Theano 和 Tensorflow 的神经网络高级包, 用他来组件一个神经网络更加快速, 几条语句就搞定了. 而且广泛的兼容性能使 Keras 在 Windows 和 MacOS 或者 Linux 上运行无阻碍.今天来对比学习一下用 Keras 搭建下面几个常用神经网原创 2017-05-01 12:00:56 · 8647 阅读 · 0 评论 -
【GitHub】-Deep Learning 库比较
整理自https://github.com/zer0n/deepframeworks/blob/master/README.md?utm_source=tuicool&utm_medium=referral另:从Theano到Lasagne:基于Python的深度学习的框架和库http://www.csdn.net/article/2015-08-0翻译 2016-01-14 11:40:15 · 928 阅读 · 0 评论 -
十个值得一试的开源深度学习框架
转自:http://www.36dsj.com/archives/37254本周早些时候Google开源了TensorFlow(GitHub),此举在深度学习领域影响巨大,因为Google在人工智能领域的研发成绩斐然,有着雄厚的人才储备,而且Google自己的Gmail和搜索引擎都在使用自行研发的深度学习工具。无疑,来自Google军火库的TensorFlow必然是开源深度学习软件转载 2015-12-07 20:05:39 · 804 阅读 · 0 评论 -
为什么在优化算法中使用指数加权平均
本文知识点:什么是指数加权平均?为什么在优化算法中使用指数加权平均?β 如何选择?1. 什么是指数加权平均指数加权平均(exponentially weighted averges),也叫指数加权移动平均,是一种常用的序列数据处理方式。它的计算公式如下:其中,θtθtθ_t:为第 t 天的实际观察值,VtVtV_t: 是要代替 θtθtθ_t 的估...原创 2018-08-05 08:22:02 · 4088 阅读 · 0 评论