深度学习
文章平均质量分 68
dawningblue
这个作者很懒,什么都没留下…
展开
-
Neural Network 3 课程笔记翻译
本章的定位在前面的章节中我们讨论了神经网络的静态部分:我们怎么设置网络连接、怎么设置数据、怎么设置损失函数。这一章我们研究一下动态部分,也就是参数的学习过程以及寻找最优参数的过程。一、梯度检查梯度检查的核心思想就一句话:把梯度的解析解和数值解拿过来进行比较就行了。【候选翻译:理论上,梯度检查非常简单,就比较梯度的解析解和数值解就行了。】但是实际上,这个过程非常的复杂和易错。以下是一些技巧、提示以及可能出现的问题:1.1 用对称形式的求导公式当计算梯度的数值解时,你可能见过这样一种有限差分的近似形式翻译 2022-04-02 20:16:12 · 331 阅读 · 0 评论 -
注释:在简单的公式上求梯度并从直观的角度阐述梯度的意义
这个是Simple expressions and interpretation of the gradient 这一小节的注解。1. 用形象的方式理解梯度这一小节的主旨主要还是从直观的角度来阐释导数的意义。之前我常用的形象工具是“斜率”。也就是高数里说的几何意义。一个曲线上不同位置上的切线,其斜率也各不相同。斜率越大的地方,相同的自变量变化能够引发更大的因变量变化。这里采用了一个新的形象工具——“敏感度”。这也是一个很形象的说法,相同的大小的扰动,有的变量引起的变化率大,有的变量引起的变化量小,确实提原创 2022-04-02 19:49:57 · 294 阅读 · 0 评论 -
注释:如何理解文中把计算回路比喻成一个人
还是从敏感度的角度的角度来理解。对于某个门来说,上游回传来的梯度,其实就是整个函数对这个门的一个敏感度。之前通过对导数定义的直观理解,我们已经掌握了这样一个知识,也就是——如果我们知道,在一个特定的位置上,函数对某个变量的导数,我们就能够知道这个如何对变量进行微小的改变(朝哪个方向,变大还是变小)就能使整个函数的值增加。注意,“在某一个特定的位置上”以及“对变量进行微小的改变”这是非常重要的条件,也就是导数成立的条件。其实从这个角度就已经能够说明问题了。没有必要非要用拟人化的比喻,反而把理解的难度增高原创 2022-04-02 19:48:53 · 173 阅读 · 0 评论 -
在工程实践中可以用 “1- 余弦相似度”来代替 欧式距离
我们知道 1- cos(x,y) = 12L2\frac{1}{2} L^221L2,而 12L2\frac{1}{2} L^221L2 和 LLL的关系是12L2\frac{1}{2} L^221L2是LLL的单调函数。或者说12L2\frac{1}{2} L^221L2和LLL的单调性是一样的。LLL增大的时候,12L2\frac{1}{2} L^221L2也会增大;LLL减小的时候,12L2\frac{1}{2} L^221L2也会减小。其实我们在应用的过程中,并不关系欧式距离的具体值是原创 2021-05-18 12:01:15 · 230 阅读 · 0 评论 -
不同的数据预处理对L1距离性能的影响
问题由来这个问题来自于CS231n Assignment1 Q1 inlineQuestion 2 ,原问题描述如下We can also use other distance metrics such as L1 distance.For pixel values pij(k)p_{ij}^{(k)}pij(k) at location (i,j)(i,j)(i,j) of some i...原创 2020-01-10 16:38:05 · 1173 阅读 · 5 评论 -
两种反向传播理解思路的统一
在我学习反向传播算法的时候,我接触了两种不同类型的阐述方式,一种是Michael Nielsen和Andrew Ng的(以下简称N2),他们的推导过程几乎一样。另一种是CS231n中基于链式法则的。这两个虽然我都明白,但是总觉得好像差别有点大,或者说既然他们说的是一个东西,那么肯定能在某一种层次上它们说的能统一在一起。为了寻找它们的统一,下面是我的一些思考。先从“反向传播”这个名字说起“反向传...原创 2019-04-04 15:03:27 · 394 阅读 · 0 评论 -
什么是“扩散概率”(diffuse probability)
今天在看CS231n的时候看到了一个名词“diffuse probability”, 扩散概率,Google了一下,在英文里直接定位到先验分布,用中文“扩散 概率”查,有少数文献提到“扩散先验”其实“diffuse probability”就应该是“diffuse prior”,diffuse prior 也称之为 Uninformative priors (非信息先验),是先验概率的一种形式,...原创 2019-02-14 12:15:34 · 3205 阅读 · 0 评论 -
卷积和池化(CS231n)
用不是特别严谨但是比较通俗的语言描述整个过程卷积神经网络是从卷积层开始介绍的,而卷积层的介绍是从全连接层开始介绍的全连接层的处理方式是一次性处理一张图片的全部信息,处理的方式是将图片信息和权重矩阵做乘积,得到一个评分结果。在细节层面上:我们会把一张图的全部信息拉成一个一维的向量,一张图的全部信息原始的状态像一个长方体方体(32 X 32 X 3)权重矩阵和这个图片信息的矩阵乘法,本质上来...原创 2018-09-29 20:22:59 · 3048 阅读 · 0 评论 -
反向传播(CS231n版)
核心概念:计算图的概念反向传播利用了链式求导但是本质不完全是链式法则理解概要与其说反向传播算法的本质是链式求导法则,到不如说它的本质是分治的思想在链式求导法则中的应用。因为当一个函数很复杂的时候,即使是我们会链式求导法则,求这个函数对某一个变量的偏导数(的解析解)依然是一个非常困难的事情。而反向传播则是把一个大问题拆成一个一个各自独立互不影响的小的问题,分别求出这些小的问题的解,再把这...原创 2018-09-29 19:36:21 · 639 阅读 · 0 评论 -
深度学习基础知识框架
作为刚入门的新手来说,CS231n提供了一个特别好的深度学习框架,本人也在学习这门课程,我以2018年课程计划为蓝本,把知识拆成小的部分,打算有时间一个一个的弄懂 课目 主题 知识点 备注 Lecture 1 课程概述 course introduction 计算机视觉概述 computer vision overview ...原创 2018-09-29 19:07:30 · 1541 阅读 · 0 评论