![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
CS231n
文章平均质量分 76
dawningblue
这个作者很懒,什么都没留下…
展开
-
Neural Network 3 课程笔记翻译
本章的定位在前面的章节中我们讨论了神经网络的静态部分:我们怎么设置网络连接、怎么设置数据、怎么设置损失函数。这一章我们研究一下动态部分,也就是参数的学习过程以及寻找最优参数的过程。一、梯度检查梯度检查的核心思想就一句话:把梯度的解析解和数值解拿过来进行比较就行了。【候选翻译:理论上,梯度检查非常简单,就比较梯度的解析解和数值解就行了。】但是实际上,这个过程非常的复杂和易错。以下是一些技巧、提示以及可能出现的问题:1.1 用对称形式的求导公式当计算梯度的数值解时,你可能见过这样一种有限差分的近似形式翻译 2022-04-02 20:16:12 · 286 阅读 · 0 评论 -
注释:在简单的公式上求梯度并从直观的角度阐述梯度的意义
这个是Simple expressions and interpretation of the gradient 这一小节的注解。1. 用形象的方式理解梯度这一小节的主旨主要还是从直观的角度来阐释导数的意义。之前我常用的形象工具是“斜率”。也就是高数里说的几何意义。一个曲线上不同位置上的切线,其斜率也各不相同。斜率越大的地方,相同的自变量变化能够引发更大的因变量变化。这里采用了一个新的形象工具——“敏感度”。这也是一个很形象的说法,相同的大小的扰动,有的变量引起的变化率大,有的变量引起的变化量小,确实提原创 2022-04-02 19:49:57 · 278 阅读 · 0 评论 -
注释:如何理解文中把计算回路比喻成一个人
还是从敏感度的角度的角度来理解。对于某个门来说,上游回传来的梯度,其实就是整个函数对这个门的一个敏感度。之前通过对导数定义的直观理解,我们已经掌握了这样一个知识,也就是——如果我们知道,在一个特定的位置上,函数对某个变量的导数,我们就能够知道这个如何对变量进行微小的改变(朝哪个方向,变大还是变小)就能使整个函数的值增加。注意,“在某一个特定的位置上”以及“对变量进行微小的改变”这是非常重要的条件,也就是导数成立的条件。其实从这个角度就已经能够说明问题了。没有必要非要用拟人化的比喻,反而把理解的难度增高原创 2022-04-02 19:48:53 · 142 阅读 · 0 评论 -
不同的数据预处理对L1距离性能的影响
问题由来这个问题来自于CS231n Assignment1 Q1 inlineQuestion 2 ,原问题描述如下We can also use other distance metrics such as L1 distance.For pixel values pij(k)p_{ij}^{(k)}pij(k) at location (i,j)(i,j)(i,j) of some i...原创 2020-01-10 16:38:05 · 1098 阅读 · 5 评论 -
一种用向量化的方式实现 L2 Distance 的数学技巧
背景描述在 CS231n 的作业题中有一个需要实现 L2 distance 的题目,题目要求不能用循环语句。已知待分类的数据集合矩阵 X ,训练用数据集合矩阵 X_train。待分类数据集中任何一个数据点到训练用数据集合中的任一点之间的距离用矩阵 dists[i,j] 来表示。理解这个问题有这样要点:在计算的过程中借助广播的性质从向量运算一口气生成最后的矩阵,而不是手动的生成矩阵。利...原创 2019-12-31 10:43:33 · 761 阅读 · 0 评论 -
Optimization 课程笔记翻译
Table of Contents:IntroductionVisualizing the loss functionOptimizationStrategy #1: Random SearchStrategy #2: Random Local SearchStrategy #3: Following the gradientComputing the gradientNumer...翻译 2019-09-12 17:32:11 · 649 阅读 · 0 评论 -
Nesterov动量更新方法理解要点
为了解释Nesterov动量更新的原理,我们从速度更新表达式开始说起。v = mu * v - learning_rate * dx (为了说明下面的推论还是需要一些前提的,为了不影响整体感,把这些放到本小节的后面)其实这个式子背后提现了这样一个原理:下一时刻的速度应该由 「当前的速度」以及「质点因受力产生的速度变化」两部分共同构成。式子的前一部分( mu * v)代表质点当前的速度状...原创 2019-04-24 10:24:31 · 3172 阅读 · 0 评论 -
关于动量更新的概括
一下是看CS231n后自己总结的笔记动量更新 是另一种在深度学习过程中经常能获得不错收敛率的学习方法。这个方法的灵盖来自物理学(我就意译了),想象优化空间如同一个延绵起伏不断延伸的丘陵地带,优化过程类似于把一个小球轻轻地放在这个地带任何一个位置,让它自然运动直到停止,一般来说,当它停下来的时候这个小球肯定是在某一个最低点,不一定是全局最低点,但是一定是局部的最低点。我们把损失函数类比这个小球的...原创 2019-04-24 10:22:04 · 2944 阅读 · 0 评论 -
什么是“扩散概率”(diffuse probability)
今天在看CS231n的时候看到了一个名词“diffuse probability”, 扩散概率,Google了一下,在英文里直接定位到先验分布,用中文“扩散 概率”查,有少数文献提到“扩散先验”其实“diffuse probability”就应该是“diffuse prior”,diffuse prior 也称之为 Uninformative priors (非信息先验),是先验概率的一种形式,...原创 2019-02-14 12:15:34 · 3134 阅读 · 0 评论 -
卷积和池化(CS231n)
用不是特别严谨但是比较通俗的语言描述整个过程卷积神经网络是从卷积层开始介绍的,而卷积层的介绍是从全连接层开始介绍的全连接层的处理方式是一次性处理一张图片的全部信息,处理的方式是将图片信息和权重矩阵做乘积,得到一个评分结果。在细节层面上:我们会把一张图的全部信息拉成一个一维的向量,一张图的全部信息原始的状态像一个长方体方体(32 X 32 X 3)权重矩阵和这个图片信息的矩阵乘法,本质上来...原创 2018-09-29 20:22:59 · 3040 阅读 · 0 评论 -
反向传播(CS231n版)
核心概念:计算图的概念反向传播利用了链式求导但是本质不完全是链式法则理解概要与其说反向传播算法的本质是链式求导法则,到不如说它的本质是分治的思想在链式求导法则中的应用。因为当一个函数很复杂的时候,即使是我们会链式求导法则,求这个函数对某一个变量的偏导数(的解析解)依然是一个非常困难的事情。而反向传播则是把一个大问题拆成一个一个各自独立互不影响的小的问题,分别求出这些小的问题的解,再把这...原创 2018-09-29 19:36:21 · 634 阅读 · 0 评论