![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
学术笔记本
文章平均质量分 95
SangrealLilith
这个作者很懒,什么都没留下…
展开
-
【从 0 开始学习 Transformer】拾遗:文章本身的问题与解释
首先感谢中科院计算所王子和先生提供的宝贵意见。由于文章结构的关系,为了能够同时兼顾代码的真实和描述的通俗。我使用了一些可能会有一定误导性的距离说明。在这里做一些解释。1. 关于 batch_size在本系列上篇的 5.2.2. 使用向量化来提升效率,一节中。我使用了这样的描述:举个例子:若有 batch_size 批次,每批次 N 条的 Query,Key。 其计算完全可以组织成 (ba...原创 2020-01-07 15:46:54 · 342 阅读 · 0 评论 -
Neural Networks and Deep Learning (Week 1)
Logistic Regression as a Neural NetworkBinary Classification本周要学习的内容不显式使用for循环处理m个训练样本前向传播与反向传播以Logistic Regression为例逻辑回归是一个一种二元分类算法。课程举例:输入一张图片,算法输出0或1标签,指明图上是不是猫。术语表Deep Lea...原创 2018-07-26 16:02:28 · 479 阅读 · 0 评论 -
范数、矩阵范数到 numpy 范数函数
向量范数范数(norm),是具有“长度”概念的函数 ppp。在线性代数、泛函分析及相关的数学领域,是一个函数,其为向量空间内的所有向量赋予非零的正长度或大小。半范数反而可以为非零的向量赋予零长度。它是欧几里得空间中长度的推广。举一个简单的例子,一个二维度的欧氏几何空间ℝ2R2\mathbb {R} ^{2}就有欧氏范数。在这个向量空间的元素(譬如:(3,7))常常在笛卡儿坐标系统被画成一个...原创 2018-08-19 16:20:29 · 3829 阅读 · 0 评论