![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
cs231n
文章平均质量分 53
breato
这个作者很懒,什么都没留下…
展开
-
cs231n 学习笔记 第六课
0.mini-batch SGD( stochastic gradient descent) 四步: (1)对整个数据采样一个小批次 (2)将这批次数据传入计算图进行计算 (3)反传计算梯度 (4)利用梯度更新参数 1.激活函数(activation function):sigmoid, Relu, tanh sigmoid存在的问题: (1)神经元饱和(输入值的绝对值很大,输出接...原创 2018-11-09 21:27:30 · 213 阅读 · 0 评论 -
cs231n学习笔记-第三课
1.损失函数(loss function):用于评价分类器表现,变量为预测值和实际值(判断预测结果) multiclass svm loss function: 考虑第i张图片,xi为其像素值,yi为其标签,s为其分类结(是一个向量,),分别为分类结果对应第1~j类的值。 我们将所有的非目标类别的值与分别与目标类别的值做差,如果结果大于一定值(这里是-1),则意味着这个结果是需要改进的,...原创 2018-11-02 21:05:13 · 127 阅读 · 0 评论 -
cs231n学习笔记 第四课
1.反向传播:核心为链式法则,通过对一系列中间变量进行简单的求导计算来得到整个复杂函数的梯度 local gradient * upstream gradient:对当前节点求导并将其与上游节点导数相乘,逐渐回传 sigmoid function: 计算图中:加法门的本地梯度是1,故将上游梯度直接分配给两个支流; 乘法门将两个支流的值交换再与上游梯度相乘,进行传递; 最大值门将上游梯度...原创 2018-11-04 21:35:21 · 180 阅读 · 0 评论 -
cs231n 学习笔记 第七课
复习: (1)为什么要进行归一化:使分类函数的裕度更大,对数据扰动的容忍程度更大 (2)过拟合的解决方法:添加正则化项 (3)参数调整规则:一般最先调整学习率(最敏感),调整到比最优值略小 更有效的优化: (1)随机梯度下降的问题: a.一些函数的梯度方向并不是指向其最小值的,此时使用梯度下降就会出现“之”字型曲线 。e.g.椭圆形等高线 b.会卡在损失函数的局部极小或鞍点上。 p...原创 2018-11-15 16:06:55 · 235 阅读 · 0 评论