1.softmax的公式怎么写?
每个分类输出过来是wx+b, 指数化,然后除以归一化
2.softmax loss, l2 loss, l1 loss, smooth l1 loss 怎么写
softmax loss, crossentropy: -ylogp
l2 loss: 1/2n
l1 loss:
smooth l1 loss: abs(x) - 0.5, x>1 or x<-1
1/2 x<1 and x > -1
3.batchnorm 的公式和更新公式
mean = a * mean + (1-a)*cur_batch_mean
std = a*std + (1-a)*cur_batch_std
alpha = alpha - gradient * alpha
beta = beta - gradient * beta
-------------------------------------------
mean = 1/n (x0 +... +x(n-1))
std = 1/n * sqrt(sum(power(xi - mean) + ...))
x = (x-mean)/(std + epsilon)
x = scale * x +shift
4.深度神经网络使用了relu激活函数, 那么出现梯度爆炸和消失的原因
因为梯度回传是一个乘积的过程,如果weight权值大于1,那么很多层,就很容易爆炸。
如果weight小于1,那么多层,乘积起来,回传到前面就会特别小
5.resnet为什么可以构建很多层
因为采用res结构,有直连,所以梯度可以不走res复杂分支,直接走直连层,那么可以有很少的层。
6.卷积网络给定输入长宽 wxh, stride, pad, kernel size, 问输出如何计算?
当时一激动,现场推导,特例出公式
(2*p+w-k+s)/s
7. gpu编程会否
8.0-1000的数字,有100000个数,如何统计每个数的个数。可否并行编程,如何加锁,对整个数组还是对每个位置。