深度学习
文章平均质量分 67
本专栏剖析深度学习相关原理、算法、模型。深入浅出讲解CNN、RNN、LSTM、GRU等模型。
人工智能插班生
双一流大学人工智能方向博士,Google GDE。已经发表SCI论文多篇,CSDN专栏文章、知乎文章近百篇(机器学习专栏、深度学习专栏、强化学习专栏、自然语言处理NLP专栏)
展开
-
机器学习与深度学习系列连载: 第二部分 深度学习(二十五) 递归神经网络Resursive Network
递归神经网络Resursive Network原创 2018-11-16 22:50:47 · 395 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(二十四) Pointer Network
Pointer Network原创 2018-11-16 22:07:24 · 973 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(二十三) 空间转换层 Spatial Transfer Layer
空间转换层 Spatial Transfer Layer原创 2018-11-16 09:08:33 · 1096 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(二十二) 机器记忆 Machine Memory
机器记忆 Machine Memory我们已经讨论过Attention机制,基于注意力机制,我们继续讨论 Memory Network。1. 外部存储我们进行DNN或者RNN之前,数据可以用Readiing controller 从外部读取进来。Ref: http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2015_2/Lecture/At...原创 2018-11-15 22:24:32 · 702 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(二十一) Beam Search
Beam Search由于在NLP中Vocabulary的量非常大,Test过程中选择结果序列是一件非常头疼的事情。 如果每一步都用最大概率去选择不一定得到最好的而结果。1. Beam Search算法来源我们还是以NLP产生字母为例:请看下图:如果按照最大概率去选,选择红色的箭头路线,其实没有绿色箭头路线总的结果好。2. Beam Search算法一般的,我们每次取概率最大的k...原创 2018-11-15 09:04:33 · 446 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(二十) 轮询采样 Scheduled Sampling
计划采样 Scheduled Sampling当我们用Seq2Seq模型进行训练和测试的时候,很容易遇到Mismatch的问题,因为训练的时候,不同的timestep输入的是groudTruth的值,但是测试的时候,不同的timestep输入的是生成的值。具体我们看下面的解释。1. 训练和测试的Mismatch训练的时候:测试的时候:Testing: The inputs are t...原创 2018-11-14 09:33:44 · 1223 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(十九) 注意力机制 Attention
注意力机制 Attention我们以机器翻译为例,来探究引入注意力机制Attention:当我们使用Seq2Seq 进行机器翻译的过程中,最后的输入对结果影响响度比较大,因为Encode的输出是在尾部(图中粉红色部分)。直觉上想,一段话的翻译的的过程中,输入句子的每一个部分都可能对正在翻译的内容会有不同的影响。1. 模型定义(1) 我们定义z与h进行match,二者先看一下模型示意图:...原创 2018-11-14 09:08:15 · 1135 阅读 · 1 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(十八) Seq2Seq 模型
Seq2Seq 模型Seq2Seq 模型是自然语言处理中的一个重要模型,当然,这个模型也可以处理图片。特点是:Encoder-Decoder 大框架适用于语言模型、图片模型、甚至是预测1. RNN相关的生成应用:(1) 作诗(2) 图片生成pixel RNN2. 条件生成Condition Generation:我们生成的结构化的结果是基于一个条件的基础,并不是随机生...原创 2018-11-13 09:07:05 · 492 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(十七)深度神经网络调参之道(learn to learn)
深度神经网络调参之道(learn to learn)学习Deep learning 除了算法理解、代码练习、比赛强化之外,还有一个非常重要的环节**“超参数调参”**,在漫漫数据中如何找到心仪的参数呢? 下面我为大家总结一下调参之道。先看看Deep learning从业者在大家心中的位置,就知道调参工作有多重要了!1. Grid Search如此之多的参数,我该何去何从,如何用最短时间内...原创 2018-11-12 09:30:19 · 643 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(十六)循环神经网络 4(BiDirectional RNN, Highway network, Grid-LSTM)
深度学习(十六)循环神经网络 4(BiDirectional RNN, Highway network, Grid-LSTM)RNN处理时间序列数据的时候,不仅可以正序,也可以正序+逆序(双向)。下面显示的RNN模型,不仅仅是simple RNN,可以是LSTM,或者GRU1 BiDirectional RNN当然,RNN的层数也不仅仅是一层2. Highway network通...原创 2018-11-11 17:47:26 · 1157 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(十五)循环神经网络 3(Gated RNN - GRU)
循环神经网络 3(Gated RNN - GRU)LSTM 是1997年就提出来的模型,为了简化LSTM的复杂度,在2014年 Cho et al. 提出了 Gated Recurrent Units (GRU)。接下来,我们在LSTM的基础上,介绍一下GRU。主要思路是:• keep around memories to capture long distance dependenci...原创 2018-11-09 09:17:33 · 523 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(十四)循环神经网络 2(Gated RNN - LSTM )
循环神经网络 2(Gated RNN - LSTM )simple RNN 具有梯度消失或者梯度爆炸的特点,所以,在实际应用中,带有门限的RNN模型变种(Gated RNN)起着至关重要的作用,下面我们来进行介绍:LSTM (Long Short-term Memory )LSTM 是一个比较难理解的网络架构,有4个输入(3个Gate),1个输出1 LSTM的运算过程我们以x1,x2...原创 2018-11-09 08:54:49 · 970 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(十三)循环神经网络 1(Recurre Neural Network 基本概念 )
循环神经网络 1(Recurre Neural Network 基本概念 )循环神经网络的特点:• RNNs 在每个时间点连接参数值,参数只有一份• 神经网络出了输入以外,还会建立在以前的“记忆”的基础上• 内存的要求与输入的规模有关当然,他的深度不只有一层:1. 公式表达对于输入x1…xT , 我们有记忆h和分类结果yhat 2 .RNN 语言处理模型在自然语言处理...原创 2018-11-08 10:06:35 · 791 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(十二)卷积神经网络 3 经典的模型(LeNet-5,AlexNet ,VGGNet,GoogLeNet,ResNet)
卷积神经网络 3 经典的模型(LeNet-5,AlexNet ,VGGNet,GoogLeNet,ResNet)经典的卷积神经网络模型是我们学习CNN的利器,不光是学习原理、架构、而且经典模型的超参数、参数,都是我们做迁移学习最好的源材料之一。1. LeNet-5 [LeCun et al., 1998]我们还是从CNN之父,LeCun大神在98年提出的模型看起。参数有:Conv fil...原创 2018-11-07 09:36:19 · 1258 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(十一)卷积神经网络 2 Why CNN for Image?
卷积神经网络 2 Why CNN为什么处理图片要用CNN?原因是:一个神经元无法看到整张图片能够联系到小的区域,并且参数更少图片压缩像素不改变图片内容1. CNN 的特点卷积: 一些卷积核远远小于图片大小; 同样的pattern 已在图片的不同区域出现抽样:抽样压缩,不影响图片的含义2. CNN 为什么适用于图片处理?一般来讲,单层神经网络可以表示任何函数(数学已...原创 2018-11-06 06:46:36 · 813 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(十)卷积神经网络 1 Convolutional Neural Networks
卷积神经网络 Convolutional Neural Networks卷积神经网络其实早在80年代,就被神经网络泰斗Lecun 提出[LeNet-5, LeCun 1980],但是由于当时的数据量、计算力等问题,没有得到广泛使用。卷积神经网络的灵感来自50年代的诺贝尔生物学奖。Hubel & Wiesel, 1959,猫负责视觉的大脑区域,对于细小的线段感兴趣(而不是鱼),这个区域...原创 2018-11-06 06:20:01 · 810 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(九)Keras- “hello world” of deep learning
KerasKearas 是深度学习小白代码入门的最佳工具之一。如果想提升、练习代码能力,还是建议算法徒手python实现。复杂的深度神经网络项目还是推荐TensorFlow或者PytorchKeras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。Keras 为支持快速实验而生,能够把你的idea迅速转换为结果,如果...原创 2018-11-04 22:13:57 · 653 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(八)可以自己学习的激活函数(Maxout)
可以自己学习的激活函数(Maxout)在深度学习中激活函数有sigma, tanh, relu,还有以后会将到的selu,但是有没有一个激活函数不是人为设定的,是机器学出来的呢?对抗网络(GAN)之父Goodfellow,给我们一个肯定的答案。Learnable activation function [Ian J. Goodfellow, ICML’13]我们以两个输入的input举例,当然...原创 2018-11-04 14:25:35 · 699 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(七)深度学习技巧4(Deep learning tips- Dropout)
深度学习技巧4( Dropout)Dropout 在2012年imagenet 比赛中大放异彩,是当时CNN模型夺冠的功勋环节之一。那什么是Dropout 我们先直观的理解:练武功的时候,训练的时候脚上绑上重物等到练成下山的时候:我们从几个方面来解释Dropout1 基础定义当训练的时候,每一个神经元都有p%的可能“靠边站”当测试的时候,所有的神经元齐心协力,共同努力:2...原创 2018-11-04 14:04:03 · 438 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(六)深度学习技巧3(Deep learning tips- Early stopping and Regularization)
深度学习技巧3( Early stopping and Regularization)本节我们一起探讨 Early stopping and Regularization,这两个技巧不是深度学习特有的方法,是机器学习通用的方法。Early stopping在训练过程中,往往会得出训练的最后的结果还可能不如以前的,原因很有可能出现overfitting。 我们需要提前踩刹车,得出更好的效果。...原创 2018-11-04 08:24:57 · 493 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(五)深度学习技巧2(Deep learning tips- Relu)
深度学习技巧(Deep learning tips2)深度学习中我们总结出5大技巧:其中 adaptive learning rate 自适应的学习率已经在上一节和大家探讨过,我们就从新的激活函数谈起。1.新的激活函数 new activation function我们知道,激活函数在基于神经网络的深度学习中将线性变换,转换为非线性变换。是神经网络能够学到东西的重要一环。常用的激活函数有s...原创 2018-11-03 07:41:25 · 416 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(四)深度学习技巧1(Deep learning tips- RMSProp + Momentum=Adam)
深度学习技巧(Deep learning tips1)深度学习中我们总结出5大技巧:我们先从Adaptive Learning Rate 谈起,我Gradient Decent 中我们已经讨论了:AdaGrad :紧着AdaGrad的步伐,我们进一步看:1.RMSProp神经网络训练的时候,Error Surface 很有可能非常复杂RMSProp其实和AdaGrad 是一样...原创 2018-11-03 07:23:14 · 833 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(三)反向传播 Backpropagaton
反向传播 Backpropagaton神经网络之所以能够工作,反向传播 Backpropagaton 算法功不可没。上节我们一起学习了Gradient Decent, 由于可能有数百万的参数,BP算法更加高效。链式规则 Chain Rule导数可以进行传递:反向传递 Backpropagaton前向 Forward pass为每一个参数 计算原创 2018-11-01 10:29:29 · 592 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(二)梯度下降
梯度下降 Gradient Decent我们回忆深度学习“三板斧”,选择神经网络定义神经网络的好坏选择最好的参数集合其中步骤三,如何选择神经网络的好坏呢?梯度下降是目前,最有效的方法之一。方法:我们举两个参数的例子θ1\theta1θ1,θ2\theta2θ2, 损失函数是L。那么它的梯度是:那我为了求得最小值,我们有:参数不断被梯度乘以学习率η 迭代那么上述公示公...原创 2018-11-01 10:28:53 · 1069 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(一)神经网络
神经网络自2012年CNN的imagenet 上的突破,以神经网络网络为基础的深度学习开始风靡学界和工业界。我们来看一张图片,关于google 内部深度学习项目的数量。而且应用领域极广,从Android 到 药品发现,到youtube。我们从一起回顾下神经网络的额前世今生:• 1958: Perceptron (linear model)• 1969: Perceptron has li...原创 2018-10-20 22:17:01 · 1404 阅读 · 1 评论