李沐课程学习
文章平均质量分 55
苏何月下追韩信丶
以梦为马
展开
-
李沐第十五课--GRU、LSTM等
前情回要:上节课可以得到用梯度裁剪可以解决梯度爆炸问题,那么对于梯度消失问题,我们可以使用GRU和LSTM来解决。 GRU: GRU中有两个比较重要的门,一个叫重置门(Rt【reset】),一个叫更新门(Zt【update】), 1,下图中第一个公式是重置门的计算方式, 2, 第二个公式是更新门的计算方式, 3,第三行是暂时的、候选的Ht的计算方式【注意第三个公...原创 2018-02-26 20:59:08 · 516 阅读 · 0 评论 -
李沐第十六课《词向量word2vec》
首先word2vec只是一个工具,然后word2vec主要包含两个模型:skip-gram(跳字模型)和CBOW模型(continuous bag of words 连续词袋模型),然后还包括两种高效的训练方法:负采样(negative sampling)和层序softmax(hierarchical softmax)。word2vec可以较好的表达不同词之间的相似和类比关系。 ...原创 2018-02-28 19:30:22 · 801 阅读 · 1 评论 -
RNN笔记随写--李沐第十二课
今天看了李沐课程的第十二课,主要学习到了RNN的具体结构,以及弄明白了RNN中隐层的具体作用。 图中的前两行表示的是RNN中的H(隐层)、Y(输出)的具体计算方式 从图中我们可以得出,是先由输入Xt和上个隐层状态Ht-1得到本层的隐层Ht,再由本层的Ht得到本层的输出Yt。隐层的具体作用我的理解是:循环神经网络使用隐层来记录前面看到的数据来帮助当前预测。比如图中,在第一...原创 2018-02-23 20:23:05 · 325 阅读 · 0 评论 -
李沐第十七课《词向量-Glove和fastText》
Glove使用了词与词之间的共现(co-occurrence)信息,假设元素Xij为词j出现在词i的环境(context)的次数。这里的”环境”有多种可能的定义。比如,在一段文本序列中,如果词j出现在词i左边或者右边不超过10个词的距离,我们认为词j出现在词i的环境一次。那么词j出现在词i的环境的概率,这一概率也叫做词i和词j的共现概率,如下图: 后续计算如下图: ...原创 2018-03-02 16:40:50 · 3818 阅读 · 0 评论 -
李沐第十三课--时间反向传播
反向传播是计算深度学习模型参数梯度的方法。总的来说,反向传播中会依据微积分中的链式法则,按照输出层、靠近输出层的隐含层、最近输入层的隐含层和输入层的次序,依次计算并存储模型损失函数有关模型各层的中间变量和参数的梯度 反向传播对于各层中变量和梯度的计算可能会依赖各层变量和参数的当前值 正向传播:对深度学习模型按照输入层、最近输入层的隐含层、靠近输出层的隐含层和输出层的次序,依次计算并存储模型的中...原创 2018-02-24 19:54:40 · 485 阅读 · 0 评论 -
李沐第十四课-实现、训练和应用循环神经网络
两个问题: 1,如何初始化RNN中的初始隐含层H0 2,如何利用RNN最后输出的隐含层Hn, 如下图中所描述的(1)(3)作为一个batch_size,(2)(4)作为一个batch_size,这样就可以实现(1)的最后一个隐含层H3可以作为下一个batch_size的(2)的初始隐含层。 ...原创 2018-02-25 19:58:03 · 360 阅读 · 0 评论 -
李沐第十八课《seq2seq》
这节课主要讲了两个东西,一个是seq2seq(编码器-解码器),一个是attention机制 seq2seq 当输入和输出都不是定长的时候,比如翻译等,我们可以采用编码器-解码器机制,编码器对应输入序列,解码器对应输出序列。 1,编码器的作用是将一个不定长的输入序列转换为一个定长的背景向量c 2,编码器最终输出的背景向量c,这个背景向量c编码了输入序列X1,X2,X3.....原创 2018-03-06 15:19:29 · 398 阅读 · 0 评论