![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 89
SangrealLilith
这个作者很懒,什么都没留下…
展开
-
【从 0 开始学习 Transformer】番外:Transformer 如何穿梭时空?
1. 前言讲解 Transfomer 在训练阶段为何无需循环调用模型即可完成导师监督(teacher-forcing)法。讲解前瞻遮挡原理的精妙用法:通过一次正向传播,模拟模型逐个得到得到整个目标句子的预测过程。2. Transformer 穿越时空了?首先,我们来看看 Transofrmer 是如何完成导师监督的(下面这是一张动图,依然来自Jay Alammar,有可能加载不出来,请参考原...原创 2019-12-15 10:53:10 · 724 阅读 · 0 评论 -
【从 0 开始学习 Transformer】上:搭建与理解
1. 前言2. 参考代码、文章及部分插图来源3. 在开始前的推荐了解3.1. 循环神经网络(RNN)3.2. 基于编码-解码(encoder-decoder)的序列到序列(sequence2sequence)模型3.3. 注意力机制3.4. 词嵌入(Word Embedding)4. 初探 Transformer5. 基础算法和模块5.1. 位置编码(Position...原创 2019-12-02 15:41:29 · 1591 阅读 · 2 评论 -
Neural Networks and Deep Learning (Week 1)
Logistic Regression as a Neural NetworkBinary Classification本周要学习的内容不显式使用for循环处理m个训练样本前向传播与反向传播以Logistic Regression为例逻辑回归是一个一种二元分类算法。课程举例:输入一张图片,算法输出0或1标签,指明图上是不是猫。术语表Deep Lea...原创 2018-07-26 16:02:28 · 479 阅读 · 0 评论 -
Neural Networks and Deep Learning ( Week 2 )
整个第二周的第一个任务就是将一个低效的用循环实现的逻辑回归计算图用向量化的形式改写,以提升速率。Vectorization此节阐述了概念并证明了向量化可以显著提升性能。向量化是指将循环操作的向量运算转化为直接的向量运算。可以显著提升性能。内积//a,b 分别为百万数量级的数组,求两个数组的内积//向量化c = np.dot(a, b) //消耗时间约1.5ms ...原创 2018-08-07 16:50:49 · 545 阅读 · 0 评论