![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
cs231n
陈卓为
好好学习,天天向上
展开
-
lecture6,Training Neural Networks, Part I
1,to be done1,slides 21页中为什么ww的梯度可以为全负值 (我认为只能为全正值,因为xx为正,wx+bwx+b对ww的gradient为xx,而activation function对wx+bwx+b的gradient为正,由链式法则可知activation function对x的gradient应为正值.)2,使用Xavier的原因3,当模型太大时,cross valida原创 2017-10-11 10:35:51 · 182 阅读 · 0 评论 -
lecture 3,Loss Function and Optimization
1,处理指数计算问题时,为了防止overflow 的处理方法(我还是存在疑问,这相当与求超级大的数的导数):f = np.array([123, 456, 789]) # example with 3 classes and each having large scores p = np.exp(f) / np.sum(np.exp(f)) # Bad: Numeric problem, poten原创 2017-10-04 10:06:12 · 164 阅读 · 0 评论 -
assignment 1
1.在需要使用bool矩阵选取元素数值时,应该将bool类型转换为float类型(此处的错误导致我debug了很久):a = np.array([[1,-1,3],[2,3,5],[-1,-3,4]]) bool_m = a > 0 b = np.sum(bool_m,axis=1) bool_m[1,:] = b #此时bool_m中的元素还是true/false print(bool_m) bo原创 2017-10-27 16:23:41 · 510 阅读 · 0 评论 -
assignment3
1,python中形参实参 http://www.cnblogs.com/DamianZhou/p/3948898.html 不应随意改动传进来的实参,因为如果传进来的是数组,形参就引用了实参,那么在函数改动形参后,实参也会受到影响import numpy as np a = np.arange(9).reshape((3,3)) adef func(b): b[0,:] = 0原创 2017-11-07 10:11:39 · 244 阅读 · 0 评论 -
lecture9,CNN Architectures
1,AlexNet2,VGGNet3,GoogleNet4,ResNet5,NetworkInNetwork原创 2017-10-25 10:22:53 · 212 阅读 · 0 评论 -
lecture10,Recurrent Neural Network
Question为什么要避免梯度消失?当前层的loss的在对权值矩阵(注意:每个时刻的权值矩阵是相同的)求导时,由于链式法则,得到的是一个求和项,其中每一项对应与前面一层对权值矩阵的求导,而在rnn中梯度消失是指求和项中当前层较远的关于权值矩阵的梯度为0,但这不会导致该求和项为0呀! 而我理解的gradient vanishing是指权值矩阵不会变化。原创 2017-10-26 10:32:09 · 128 阅读 · 0 评论 -
lecture7,Training Neural Networks, Part 2
1,Fancier optimizationsgd存在的问题: Very slow progress along shallow dimension, jitter along steep direction。if loss changes quickly in one direction and slowly in another. local minima or saddle point A,原创 2017-10-23 11:24:27 · 259 阅读 · 0 评论 -
lecture4,backpropagation and nerual network
1,computational graphs,一系列简单的计算过程组成的一张图,易于求导(理论指导为链式法则)a,. feedward b,backward:前一个输入当作未知数求导,因为前一个输入包含着与未知数w的关系。即dydw=dydf(x).df(x)dx\frac{dy}{dw} = \frac{dy}{df(x)} .\frac{df(x)} {dx} ,f(x)视为前一个输入。原创 2017-10-05 11:13:13 · 160 阅读 · 0 评论 -
Assigmment2
1, 做batch_normlization时,computation graph的计算:2,假设输入是X的维度是(N,C,H,W),对卷积层做batch_normalization时,scale和sift有C维,计算mean和std是对N*H*W维来做计算,而不是对N维,即不是对第c个通道的(i,j)位置计算mean和std。但在对全连层做BN时,是对N维来计算。原创 2017-11-05 10:18:37 · 187 阅读 · 0 评论